Матричные игры с природой (теория статистических решений)
Теория игр. Основные понятия и определения 1. Матричные игры Тео́рия игр – это математическаятеория конфликтных ситуаций, т.е. таких ситуаций, в которых сталкиваются интересы двух или более сторон, преследующих различные цели.
Конфликтные ситуации – это ситуации, в которых эффективность решения, принимаемого одной стороной (выигрыш), зависит от действий другой стороны.
Игра представляет собой математическую модель реальной конфликтной ситуации. От реальной конфликтной ситуации она отличается тем, что ведется по определенным правилам, в которых должны быть указаны: - порядок чередования действий (ходов) участников; - правила выполнения каждого хода; - количественный результат игры (выигрыш, проигрыш), к которому приводит данная совокупность ходов. Игра, в которой участвуют два игрока А и В, называется парной, если игроков больше двух, то это игра – множественная. Игра, в которой выигрыш одного из игроков равен проигрышу другого, называется игрой с нулевой суммой (антагонистической игрой). Игра называется конечной, если число стратегий игроков конечно, бесконечной, если хотя быу одного из игроков число стратегий является бесконечным. В игре с полной информацией перед каждым ходом каждый игрок знает все предшествующие ходы и выигрыши. Просчеты в теории игр не рассматриваются.
Игроки – это стороны, участвующие в игре (конфликте).Иногда под одним из игроков понимается природа, формирующая условия, в которых необходимо принимать решения.
Ходом называется выбор одной из предусмотренных правилами игры стратегий и ее осуществление. В простых (одноходовых) играх понятия хода и стратегии совпадают. Ходы игроков бывают личные (сознательный выбор) и случайные (случайный выбор).
Стратегией игрока называется совокупность правил, определяющих выбор варианта действий при каждом личном ходе игрока в зависимости от ситуации, сложившейся в процессе игры. Стратегия выбираемая игроком сознательно исходя из анализа сложившейся обстановки называется личной (или чистой). Стратегия игрока называется оптимальной, еслиона обеспечивает данному игроку (обычно игроку А) при многократном повторении игры максимально возможный средний выигрыш или минимально возможный средний проигрыш независимо от поведения противника (могут быть использованы и другие показатели оптимальности). Оптимальные стратегии характеризуются устойчивостью, то есть ни одному из игроков не выгодно отклоняться от своей оптимальной стратегии.
Партия игры – это однократная возможная реализация правил игры (стратегий) игроками.
Матричной игрой называется парная игра, осуществляемая по следующим правилам: 1. В игре участвуют два игрока - А и В; 2. Каждый из игроков обладает конечным набором стратегий (для игрока А - это стратегии А1, А2, …..Аm, а для игрока В - это стратегии В1,В2,…….Вn); 3. Игра заключается в том, что каждый из игроков, не имея информации о действиях противника, делает один ход (выбирает одну из своих стратегий). Результатом выбора игроками стратегий является выигрыш и проигрыш в игре. 4. И выигрыш, и проигрыш выражаются числами аij,которые являютсяэлементами, так называемой платежной матрицы. В частности, выигрыш для игрока А при выборе стратегии Аi, и игроком В – стратегии Вj равен аij, а для игрока В – он равен вij =-аij, то есть является проигрышем. Платежная матрица (или матрица игры) – является одним из способов задания матричной игры, который называется нормальным. Второй способ задания игры – позиционный способ связан развернутой формой задания игры и сводится к построению графа последовательных шагов игры (дереву игры).
Если условие вij =-аij не выполняется, то есть каждый из игроков имеет свою платежную матрице, тогдаэтапарная игра является игрой с ненулевой суммой и называется биматричной игрой.
Решить матричную (антагонистическую) игру – значит найти для игроков А и В их оптимальные стратегии. Решение игры связано с матрицей (аij) и следующими понятиями: Нижняя цена игры α=maxmin аij (сначала находится минимум в каждой строке, а I j потом из полученных минимумов находится максимум). Это гарантированный выигрыш игрока А при любой стратегии игрока В. Верхняя цена игры β=minmax аij (сначала находится максимум в каждом столбце, J i а потом из полученных максимумов находится минимум). Это гарантированный проигрыш игрока В при любой стратегии игрока А. Очевидно α<= β. В случае α=β говорят о цене игры ν=α=β. Соответствующие цене игры стратегии являются оптимальными, а сама игра есть игра с седловой точкой.
В случае, когда α<β седловой точки не существует. В этом случаерешение игры ищестся в смешанных стратегиях. Доказано (Дж. Фон Нейман), что конечная матричная игра имеет, по крайней мере, одно оптимальное решение, возможно в смешанных стратегиях.
Смешанная стратегия состоит в том, что при повторении игры происходит случайный выбор стратегии из множества смешиваемых стратегий и для каждой смешиваемой стратегии указывается вероятность (частота) ее выбора. В таком случае для каждого игрока указывается вектор частот, с которым следует применить ту или иную стратегию. Для игрока А это Р=(р1,….рm), а для игрока В – это Q=(q1,…….,qn), при этом Σ pi=1 и Σ qj=1, средний выигрыш игрока А равен НА(Р,Q)=Σ Σ аij pi qj Если вероятность применения стратегии отлична от нуля, то такая стратегия называется активной.
Оптимальными смешанными стратегиями Р0 и Q0 называются стратегии, если выполняется неравенство:
НА(Р,Q0)=< НА(Р0,Q0)=< НА(Р0,Q)
В этом случае НА(Р0,Q0) называется ценой игры и обозначается α=<ν=< β Первое из неравенств означает, что отклонение игрока А от своей оптимальной смешанной стратегии при условии, что игрок В придерживается своей оптимальной смешанной стратеги, приводит к уменьшению среднего выигрыша игрока А. Второе из неравенств по смыслу аналогично первому с той лишь разницей что касается игрока В.
Решение всякой парной конечной игры с нулевой суммой может быть получено методами линейного программирования. Сведение матричной игры к задаче линейного программирования Из свойств оптимальных смешанных стратегий игроков вытекает, что при любой стратегии игрока В для игрока А имеет место неравенство:
Σ аij pi>= ν i Обозначая далее xi= pi/ ν исходное неравенство можно переписать следующим образом Σ аij хi>=1 и Σ хi>=1/ν i i Поскольку игрок А стремиться максимально увеличить свой гарантированный выигрыш, то задача отыскания решения матричной игры сводится к следующей задаче линейного программирования: Σ хi → min i Σ аij хi>=1 i Рассуждая аналогичным образом со стороны игрока В – он стремиться сделать свой гарантированный проигрыш минимальным. И вводя обозначения: yi= qi/ ν и учитывая, что Σ аij yi<=1 получаем двойственную по отношению к i рассмотренной следующую задачу линейного программирования: Σ yi → max i Σ аij yi<=1 i
Матричные игры с природой (теория статистических решений)
В рассматриваемой (см. выше) теории матричных игр исследуются игры, в которых противник «разумный и злонамеренный» (неопределенность в этих играх состоит в том, что выбор действий противника неизвестен), так и игры, в которых действия противника («природы») неосознанны, пассивны (другой в отличие от первого вид неопределенности). «Природа» действует случайным образом, точнее считается, что ее состояния реализуются случайным образом. В качестве второго игрока (В), действительно может выступать природа, например: нефтегазовый пласт, природные условия (суша, море, климат и др.), геолого-технологические условия (пористость, проницаемость, высота кровли пласта и т.д.) и др., которые активных действий не предпринимают, а неопределенность состоит в том, с какой вероятностью или шансами реализуются те или иные природные условия.
Матричные игры с учетом последнего типа неопределенности называются играми с природой (или теорией статистических решений). В игре с природой – пассивный игрок (природа) обычно обозначается как – П. Суть такой игры состоит в том, что игроку (активному) А требуется выбрать такую чистую или смешанную стратегию, которая является более выгодной, чем остальные. Предположим, что в платежной матрице мы имеем некоторые аij и akl такие что, аij>akl. При этом, выигрыш (аij) может быть больше второго (akl) не за счёт нашего выбора более удачной стратегии, а за счёт того, что состояние природы Пj выгоднее для нас, чем Пl, в этом смысл удачности стратегии. Поэтому для разрешения этого вопроса необходимо ввести дополнительные показатели, который описывали бы «удачность» или «неудачность» принятия данной стратегии в данной ситуации с учётом общей благоприятности ситуации. С этой целью вводится понятие риска: 1. Платежная матрица задается матрицей выигрышей игрока А. Риском игрокаА при использовании стратегии Аi в условиях Пj называется разность между выигрышем, который он получил бы, если бы знал Пj, и выигрышем, который он получает в тех же условиях, применяя стратегию Аi. Очевидно, если бы игрок знал заранее состояние природы Пj, он выбрал бы ту стратегию, которой соответствует максимальный выигрыш в данном столбце (максимум столбца j) – это βj. Тогда риск rij есть: , где , rij ≥ 0. 2. Платежная матрица задается матрицей проигрышей (потерь, убытков) игрока А. Риском игрока Риском игрокаА при использовании стратегии Аi в условиях Пj называется разность между проигрышем, который он получил бы, если бы знал Пj, и проигрышем, который он получает в тех же условиях, применяя стратегию Аi. Очевидно, если бы игрок знал заранее состояние природы Пj, он выбрал бы ту стратегию, которой соответствует минимальный проигрыш в данном столбце (минимум столбца j) – это βj. Тогда риск rij есть: rij=aij - βj, где βj = min aij, rij≥0 9Поэтому введенное понятие риска является мерой благоприятности состояния природы. В игре с природой существует два подхода к получению оптимального решения, когда критерии принятия решений зависят от того известны ли нам состояния природы Пj и соответствующие имвероятности Q(Пj) и ли нет. При первом подходе считается, что состояния природы Пj неизвестны, но известны их вероятности Q(Пj), эта ситуация называется ситуацией частичной неопределенности. П ри втором подходе наоборот состояния природы известны Пj, но данные о вероятностях их реализации Q(Пj) отсутствуют, такая ситуация называется ситуацией полной неопределенности.
При частичной неопределенности в качестве показателя эффективности (критерия), который необходимо обратить в максимум принимается среднее значение (математическое ожидание) выигрыша игрока А с учетом всех возможных вероятностей Q(Пj). В этом случае за несколько партий мы получим среднее значение выигрыша (математическое ожидание) – критерий Байеса –Лапласа (B-L – критерий): ` , где – взвешенное среднее. Оптимальной стратегией А* = Аi будет та, которая удовлетворяет этому условию. В результате задача сводится к поиску решения в среднем. Средний риск: ` Можно показать, что стратегия максимизации āi и минимизации одна и та же. В случае, когда известны вероятности Q1, Q2 …. Qn, при решении игры с природой всегда можно обойтись чистыми стратегиями, не применяя смешанных стратегий, то есть: средний выигрыш – это среднее взвешенное среднего выигрыша, соответствующее чистым стратегиям и: Поэтому принятие смешанной стратегии игроком А не может быть выгоднее с любыми вероятностями Пi, чем применение чистой стратегии А* = Аi. Если в качестве оптимальной стратегии выбирается та из них, для которой величина āi обращается в максимум, соответственно в минимум,то такая стратегия называется байесовской .. Эта стратегия является чистой В этом рассматриваемом подходе, когда вероятности Q(Пj) заранеенеизвестны в теории игр с природой рассматривается ряд вариантов их вычисления: а) Вероятности Q(Пj) считаются субъективными и определяются экспертами. б) Ни одно из состояний природы не считается приоритетным и вероятности Q(Пj) считаются равными: – это – так называемый «принцип недостаточного основания» Лапласа; В этом случае критерием принятия решения является критерий (критерий Лапласа) и наилучшей стратегией является стратегия, имеющаяя: n max (1/n) Σ aij j=1 или
n min (1/n) Σ rij j=1
в) Располагают состояние природы (гипотезы) Пi, в порядке их правдоподобности, тогда вероятности Q(Пj) назначают пропорциональными членам убывающей арифметической прогрессии:
Q(Пj): Q(Пj):….. Q(Пj): n :(n-1):…..:1 или – точечная оценка Фишбена; которые подставляются в B-L – критерии. г) существуют статистические данные о состоянии природы, на основе которых можно построить дискретный ряд распределения вероятностей Q(Пj). В любом из рассмотренных случаев за оптимальное решение принимается та чистая стратегия Ai*, которая дает средний максимальный выигрыш (минимальный суммарный риск). В целом, применение этого критерия о выборе решения в условиях неопределенности при рассмотренном подходе превращается в задачу о выборе решения в условиях определенности, только принятое решение является оптимальным не в каждом отдельном случае, а в среднем. При втором подходе - ситуации полной неопределенности, то естьв случае, когда Q(Пj) неизвестны и не предполагается их вычисление по указанным выше правилам для принятия решений применяют следующие критерии: Максиминный критерий Вальда (критерий пессимизма – всегда рассчитывай на худшее, MM - критерий) – худший результат объявляется минимальным выигрышем, то есть: Критерий Сэвиджа (любыми путями избежать большого риска) – худшим объявляется не минимальный выигрыш, а максимальная потеря выигрыша по сравнению с тем, чего можно было бы добиться в данных условиях: Критерий Гурвица (критерий пессимизма-оптимизма) – степень пессимизма оценивается экспертами критерием α , где 0 ≤ α ≤ 1. При α = 1 получаем критерий Вальда. Критеий Ходжа-Лемана (HL –критерий) опирается одновременно на MM – критерий и B-L – критерий. По этому критерию выбор определяется выражением: n Z = max[α Σ aij Qj + (1-α)min aij] j j=1 i
а правило выбора по этому критерию формируется следующим образом. 1. Платежная матрица с элементами aij дополняется столбцом, составленным из суммы средних взвешенных (с весом α=const) математических ожиданий и наименьшего результата каждой строки. 2. Отбираются те варианты решений, в строках которого стоит наибольшее значение этого столбца. При α=1 критерий Ходжа-Лемана переходит в критерий Байеса-Лапласа, а при α=0 максиминным критерием Вальда. С помощью параметра α выражается степень доверия к используемому распределению вероятностей. Если это доверие велико, то приоритет имеет и B-L – критерий, в противном случае предпочтение отдается MM – критерию Вальда. Критеий Гермейера ориентирован на величину потерь, то есть на отрицательные значения всех aij. При этом, он определяется выражением:
Z =max min [aij Qj ] j i Правило выбора согласно критерию Гермейера формируется следующим образом: матрица решений с элементами aij дополняется еще одним столбцом, содержащим в каждой строке наименьщее произведение имеющегося в ней результата на вероятность соответствующего состояния природы Пj, а затем среди полученных значений этого столбца выбирается вариант с наибольшим значением. Критерий Гермейера обобщает MM – критерий Вальда: в случае равномерного распределения Qj=1/n они становятся идентичными. Критеий произведений имеет вид n Z = max Пaij i j=1 Здесь правило выбора формируется так: матрица решений с элементами aij дополняется новым столбцом, содержащим произведения всех результатов каждой строки, и в затем выбирается вариант с наибольшим значением. Критерий имеет смысл когда все элементы aij являются положительными.
Рассмотрим пример Предположим, что на территории деятельности нефтедобывающего предприятия открыто и подготовлено к эксплуатации среднее по объему запасов (30 млн. т) нефтяное месторождение. Региональным проектным институтом составлена технологическая схема разработки данного месторождения, предусматривающая его эксплуатацию с помощью трех альтернативных вариантов, отличающихся фондом скважин и их размещением по площади, системами воздействия на пласт, динамикой добычи нефти и жидкости, динамикой капитальных и текущих затрат и другими технико-экономическими показателями. Практика эксплуатации аналогичных месторождений района показывает, что "истинные" запасы месторождений такого типа могут составлять 20, 25, 30 и в редких случаях 35 млн т. Требуется определить рациональный вариант разработки месторождения исходя из предположения, что вероятности возможных состояний известны (первый случай), вероятности неизвестны, но можно предположить их равенство (второй случай), вероятности отсутствуют (третий случай). Предположим, что для каждого варианта разработки (каждой стратегии освоения) нефтяного месторождения и каждого состояния природы (объема запасов) рассчитаны значения чистой текущей стоимости, они показаны на пересечении строк и столбцов табл.5.4. Таблица 5.4.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|