Графические методы решения игр
Применение алгоритмов линейного программирования для решения стандартных задач далеко не всегда является рациональным. Помимо этого существуют иные методы, которые основываются на использовании специфики данных задач. В настоящем пункте мы остановимся на очень простом классическом способе поиска оптимальных смешанных стратегий в матричных играх, где один из участников имеет только две стратегии (это так называемые 2× п и т ×2 игры). Для определенности положим, что игрок I имеет возможность выбирать между двумя стратегиями с вероятностями x 1 и x 2 = 1 - x 1, тогда его ожидаемые выигрыши, соответствующие чистым стратегиям игрока II, примут вид или т. е. ожидаемые выигрыши могут быть представлены в виде графиков линейных функций, зависящих от переменной x 1 ∊ [0; 1] На данном рисунке предполагается, что игрок II имеет три стратегии. Линии, изображенные на рисунке задают зависимости среднего выигрыша игрока I от значения вероятности x 1, с которой он выбирает свою первую стратегию, для случаев, когда его противник выбирает первую, вторую или третью чистую стратегию. Тогда значениям минимального гарантированного дохода первого игрока соответствует нижняя огибающая всех трех прямых. Согласно принципу максимина, оптимальному выбору игрока I будет соответствовать наивысшая точка, лежащая на данной огибающей, отмеченная на рисунке как (x 1*, z *). Зная ее, можно определить оптимальную смешанную стратегию первого игрока х * = (x 1*, 1- x 2*) и цену игры, равную z *. Исходя из отношения двойственности по оптимальной стратегии первого участника х * однозначно определяется оптимальная стратегия его противника у*. Поскольку у* является результатом решения задачи линейного программирования, то он обладает всеми свойствами допустимого базисного плана, т. е. в случае 2× п игры имеет не более чем две ненулевых компоненты и не менее чем (п -2) нулевых. Номера ненулевых элементов у* определяются номерами линий, пересечение которых определило оптимальную стратегию первого игрока. Действительно, игрок II знает оптимальную стратегию соперника, и применение им стратегий, соответствующих прямым, проходящим выше точки (х 1*, z *), только увеличило бы его проигрыш.
В рассматриваемом примере это линии z 2 и z 3, и, следовательно, в своей оптимальной стратегии второй игрок должен с ненулевыми вероятностями применять вторую и третью чистые стратегии (у 2 >0, у 3 >0). Учитывая условие нормировки , можем выразить: y 3 = l – y 2 тогда оптимальное значение y 2* может быть найдено из условия или В результате получаем оптимальную стратегию игрока II у*= (0, у 2*, у 3*). Очевидно, что поиск решения в игре т ×2 осуществляется аналогичным образом с точностью до наоборот: строятся графики ожидаемого проигрыша игрока II, находится их верхняя огибающая и т. д. Безусловно, графический способ в силу ограниченности круга задач, к которым он может быть применен, имеет скорее теоретическое, чем практическое значение. Однако он хорошо иллюстрирует содержательную сторону процесса поиска решения в игре. Геометрическое решение игры 2×2 Решению игры 2×2 можно дать хорошо обозримую геометрическую интерпретацию. Пусть имеется игра 2×2 с платежной матрицей
Решение в чистых стратегиях отсутствует. Предположим, игрок А выбрал смешанную стратегию (х 1 х 2), а игрок В — свою чистую стратегию В i. В этом случае средний выигрыш игрока А определяется по формуле математического ожидания , i = 1,2, поскольку x 1 + x 2 = 1. Каждому значению i, согласно vB i, соответствует прямая линия в прямоугольной системе координат. Изобразим эти прямые на плоскости.
В системе координат на оси абсцисс отложим отрезок А 1 А 2единичной длины. Левый конец отрезка (точка с абсциссой х = 0) соответствует стратегии А 1, а правый конец отрезка (х = 1) — стратегии А 2. Все промежуточные точки SA — смешанные стратегии игрока А, причем вероятность х 1стратегии А 1 находится как расстояние от точки SA до правого конца отрезка (точки А 2), а вероятность х 2 стратегии А 2 — как расстояние до левого конца (точки А 1). Через точки А 1 и А 2 проведем два перпендикуляра к оси абсцисс: ось I и ось II. На оси I будем откладывать выигрыш при стратегии А 1 а на оси II — выигрыш при стратегии А 2. Пусть противник применяет стратегию B 1; тогда v = a 11 + (а 21 – а 11 ) х 2. При А 1, выигрыш равен а 11, а при А 2 выигрыш равен а 21. Отложим эти точки соответственно на осях I и II и обозначим их В 1, что соответствует одноименной стратегии игрока В. Проведем через эти точки прямую В 1 В 1 и будем условно называть ее «стратегией В1. Очевидно, средний выигрыш игрока А, соответствующий смешанной стратегии SA = (х 1; х 2), определяется по формуле математического ожидания и равен ординате точки М, которая лежит на отрезке В 1 В 1 и соответствует точке SA на оси абсцисс, делящей отрезок А 1 А 2 в соотношении х 2 : х 1. Аналогичным способом строим стратегию В 2. Геометрическая иллюстрация игры 2×2 представлена на рис. IV.1.
Рис.3.1
Необходимо найти оптимальную стратегию S*A, то есть такую стратегию, при которой, согласно принципу максимина, минимальный выигрыш игрока А (при наихудшем для него поведении В) обращался бы в максимум. Поскольку цель игрока В — минимизировать выигрыш игрока А за счет выбора своих стратегий, построим нижнюю границу выигрыша при стратегиях В 1, В 2 (ломаная В 1 МВ 2 отмечена на рисунке жирной линией). На этой границе будет лежать минимальный выигрыш игрока А при любой его смешанной стратегии. Поскольку цель игрока А — максимизировать свой выигрыш за счет выбора соотношения х 2: х 1, ищем верхнюю точку нижней границы выигрыша. Точка М, в которой этот выигрыш достигает своего максимального значения, определяет решение и цену игры. Ордината точки М — цена игры v, ее абсцисса равна , а расстояние до правого конца участка — ,т. е. расстояния от точки до концов отрезка равны вероятностям и стратегий А 2 и А 1 в оптимальной смешанной стратегии игрока А.
В рассмотренном примере решение игры определялось точкой пересечения стратегий В 1, В 2, но так бывает не всегда; решение определяется именно верхней точкой нижней границы, а эта точка не всегда совпадает с точкой пересечения стратегий. Рассмотрим два примера. На рис. 3.2 представлен случай, когда оптимальной стратегией игрока А является чистая стратегия А 2, т. е. . Здесь стратегия А 2 явно выгоднее стратегии А 1, независимо от поведения противника.
Рис. 3.2 На рис. 3.3 представлен случай, когда заведомо невыгодная стратегия имеется у противника. Для этого случая .
Рис. 3.3 Рассмотрим теперь, как определяется оптимальная смешанная стратегия игрока В. Через верхнюю точку нижней границы (точка М на рис. 1.1) проведем прямую, параллельную оси абсцисс (прямая KL). Доля у 1 стратегии В 1 в оптимальной смешанной стратегии равна отношению длины отрезка K В 2 к сумме длин отрезков K В 2 и K В 1 на оси I: или, что то же самое: на оси II. Оптимальную стратегию можно найти также, если поменять местами игроков А и В, а вместо максимума нижней границы выигрыша рассматривать, согласно принципу минимакса, минимум верхней границы. Геометрическое нахождение оптимальных стратегий игрока А, цены игры, нижней и верхней цен игры в чистых стратегиях, седловых точек матрицы игры и доминирующих стратегий игроков можно проводить по следующему алгоритму. Алгоритм. 1. Берем горизонтальный отрезок [0;1] (рис. 3.4), на котором для определенности положено a 22 < a 11 < a 21 < a 12. 2. Рис. 3.4 3. В конце отрезка [0;1] проводим к нему два перпендикуляра: левый, соответствующий стратегии A 1, и правый, соответствующий стратегии A 2. 4. На левом перпендикуляре от точки 0 его пересечения с отрезком [0;1] откладываем (как на вертикальной числовой оси) элементы a 11 и a 12 первой строки матрицы А. 5. На правом перпендикуляре от точки 1 его пересечения с отрезком [0;1] откладываем (как на вертикальной числовой оси) элементы a 21 и a 22 второй строки матрицы А.
Замечания к пунктам 1,3,4: масштабы на левом и правом перпендикулярах должны быть одинаковы, не обязательно совпадающие с масштабом горизонтального отрезка [0;1]. 6. Соединяем точки, изображающие элементы с одинаковыми вторыми индексами, т.е. элементы, стоящие в одном и том же столбце матрицы А: a 11 с a 21 и a 12 с a 22. В результате получаем отрезки: a 11 a 21 и a 12 a 22. 7. Если отрезки: a 11 a 21 и a 12 a 22 неубывающие: a 11 a 21↗ и a 12 a 22↗, то стратегия A 2 доминирует стратегию A 1. Если отрезки a 11 a 21 и a 12 a 22возрастающие, то стратегия A 2 строго доминирует стратегию A 1. 8. Если отрезок a 11 a 21 лежит не ниже отрезка a 12 a 22, то стратегия B 2 доминирует стратегию B 1. Если отрезок a 11 a 21 лежит выше отрезка a 12 a 22 и не пересекается с ним, то стратегия B 2 строго доминирует стратегию B 1. 9. Находим нижнюю огибающую отрезков a 11 a 21 и a 12 a 22. 10. Находим наивысшие точки нижней огибающей. 11. Проектируем их ортогонально на горизонтальный отрезок [0;1]. 12. Полученные проекции p 0 определяют оптимальные стратегии P 0 = (1 - p 0, p 0) игрока А. 13. Ордината наивысшей точки огибающей равны цене игры V. 14. Верхний из двух концов нижней огибающей (лежащих на перпендикулярах) есть нижняя цена игры в чистых стратегиях α. 15. Нижний из двух верхних концов отрезков a 11 a 21 и a 12 a 22есть верхняя цена игры в чистых стратегиях β. 16. Если элемент является нижним на перпендикуляре, где он лежит, и верхним концом отрезка a 11 a 21 и a 12 a 22 на котором он лежит, то этот элемент является седловой точкой. В этом случае чистая стратегия игрока В, номер которой совпадает со вторым индексом седловой точки, является оптимальной. Пункт 15 алгоритма «А» дает возможность достаточно просто геометрически выявить оптимальную чистую стратегию игрока В в случае, если матрица игры содержит седловую точку. Оптимальные стратегии игрока В геометрически можно находить также и по следующему алгоритму «В». Решение игры 2× n Для решения матричных игровых задач, в которых число стратегий хотя бы одного из игроков равно двум, эффективным является графический способ, аналогичный способу решения задач 2×2. Рассмотрим сначала игру 2× n. Пусть имеем игру с матрицей В этой игре игрок А обладает двумя чистыми стратегиями A 1 и A 2, а игрок В имеет п чистых стратегий В 1, В 2,…, В n. Оптимальные стратегии игрока А можно найти по геометрическому (графическому) алгоритму «А». Решение задачи находится согласно следующему алгоритму. 1. Определяем нижнюю границу выигрыша. 2. Находим верхнюю точку нижней границы — точку М. Ордината этой точки и будет ценой игры v, абсцисса точки М будет равна вероятности x2 стратегии А 2 в оптимальной смешанной стратегии игрока А — .
3. Определяем, в результате пересечения каких стратегий была получена верхняя точка нижней границы, — эти стратегии являются активными, остальные стратегии — пассивные (т. е. их вероятности равны нулю). 4. Далее решаем задачу 2×2 (со стратегиями В 2 и В 5) по ранее предложенной схеме, забыв про пассивные стратегии до тех пор, пока не записываем ответ. Рассмотрим некоторые случаи, которые могут иметь место при определении оптимальной стратегии. а) Верхняя точка нижней границы выигрыша имеет координаты (0, v)(рис. 3.5а).
Рис.3.5
В этом случае оптимальной стратегией игрока A является чистая стратегия A 1, поскольку . Игроку B выгодно применять чистую стратегию, соответствующую прямой, проходящей через точку (0, v) и имеет наибольший отрицательный наклон. Цена игры - v. б) Верхняя точка нижней границы выигрыша имеет координаты (1, v)(рис. 3.5а). В этом случае оптимальной стратегией игрока A является чистая стратегия A 2, поскольку . Игроку B выгодно применять чистую стратегию, соответствующую прямой, проходящей через точку (1, v) и имеет наименьший положительный наклон. Цена игры - v. в) Нижняя граница выигрыша имеет горизонтальный участок (рис. 3.5.б). В этом случае максимум нижней границы будет не в одной точке, а на участке MM ', ордината которого равна v. Решение для игрока A при этом будет неоднозначным: он может применять любую из из своих смешанных стратегий, соответствующих точкам оси абсцисс от N до N '. Таким образом, у игрока A существует несчетное множество оптимальных стратегий . Решение для игрока В определяем с помощью граничных точек участка ММ' по тем же правилам, как и в играх 2x2. Так, в точке М' пересекаются стратегии В 1 и В 2. Следовательно, учитывая, что точки L и В 2 совпадают, т. е. отрезок LВ 2 равен нулю, имеем: . В точке М пересекаются стратегии В 3 и В 2. Следовательно, учитывая, что отрезок L В 2 равен нулю, имеем: . Таким образом, мы доказали, что стратегия игрока В, которой соответствует горизонтальный участок, является его чистой оптимальной стратегией. Алгоритм. 1. Берем горизонтальный отрезок [0,1]. 2. Через концы отрезка [0,1] проводим к нему два перпендикуляра: левый и правый. 3. На левом перпендикуляре от точки 0 его пересечения с отрезком [0, 1] откладываем (как на вертикальной числовой оси) все элементы первой строки матрицы А. 4. На правом перпендикуляре от точки 1 его пересечения с отрезком [0, 1] откладываем (как на вертикальной числовой оси) все элементы второй строки матрицы А. Замечания к пунктам 1, 3, 4: масштабы на левом и правом перпендикулярах должны быть одинаковы, не обязательно совпадающиес масштабом горизонтального отрезка [0,1]. 5. Каждую дару точек, изображающих элементы и , , стоящие в j-м столбце матрицы А, соединяем отрезком . Таким образом, будут построены п отрезков, представляющих собой графики n линейных функций , , j = 1,2,…, n, где Р = (1 — р, р) — смешанная стратегия игрока А. 6. Если все отрезки , j = 1,2,…, n,неубывающие (имеют неотрицательный наклон): ↗, , j = 1,2,…, n, то стратегия A 2 доминирует стратегию A. Если все отрезки , j = 1,2,…, n, возрастающие (имеют положительный наклон): то стратегия A 2 строго доминирует стратегию A 1.
7. Если все отрезки , j = 1,2,…, n, невозрастающие (имеют неположительный наклон); (, j = 1,2,…, n, то стратегия A 1 доминирует стратегию A 2. Если все отрезки , j = 1,2,…, n убывающие (имеют отрицательный наклон): ↓, (a 2 j – a 1 j < 0, j = 1,2,…, n, то стратегия A 1 строго доминирует стратегию A 2. 8. Если отрезок лежит не ниже отрезка , j1 ≠ j2; , то стратегия доминирует стратегию Если отрезок лежит выше отрезка , j1 ≠ j2; , то стратегия строго доминирует стратегию 9. Находим (выделяем) нижнюю огибающую семейства отрезков, которая в общем случае будет представлять собой выпуклую вверх ломаную, а, в частности, может быть и отрезком. 10. На нижней огибающей находим наивысшую точку (точки). 11. Абсцисса р° этой точки является вероятностью выбора игроком А чистой стратегии A2 в оптимальной смешанной стратегии P 0 = (1 - p 0, p 0). 12. Ордината наивысшей точки нижней огибающей является ценой игры V. 13. Верхний из двух концов нижней огибающей (лежащих на перпендикулярах) есть нижняя цена игры в чистых стратегиях a. 14. Нижний из верхних концов отрезков , j = 1,2,…, n, есть верхняя цена игры в чистых стратегиях β. 15. Элемент матрицы А, изображающая точка которого является нижней на перпендикуляре, где она лежит, и верхним концом отрезка, на котором она лежит, будет седловой точкой игры. В этом случае чистая стратегия игрока В, номер которой совпадает со вторым индексом седловой точки, является оптимальной. На рисунке 3.6 из n отрезков , j = 1,2,…, n, указаны три, которые принимают участие в конструировании нижней огибающей, выделенной жирной линией; N — наивысшая точка этой огибающей; р° — абсцисса точки N, следовательно, Р° = (1 - р°, р°) — оптимальная смешанная стратегия игрока А; цена игры V равна ординате точки N; нижняя цена игры в чистых стратегия ; верхняя цена игры в чистых стратегиях ; на рисунке видно, что α< V <β. Рис. 3.6 Решение игры m × 2
Пусть теперь в матричной игре игрок В имеет две стратегии, а игрок А - m стратегий. Платежная матрица такой игры выглядит следующим образом: Анализ этой игры во многом напоминает рассуждения, описанные для игры . Изобразим m стратегий игрока А в виде m прямых, подобно тому как мы это делали в игре для игрока В (рис. 3.7).
Рис. 3.7
Далее находим решение задачи согласно следующему алгоритму. 1. Определяем верхнюю границу выигрыша. 2. Находим нижнюю точку верхней границы — точку М. Ордината этой точки и будет ценой игры v, абсцисса точки М будет равна вероятности стратегии В 2в оптимальной смешанной стратегии игрока В - . 3. Определяем, в результате пересечения каких стратегий была получена нижняя точка верхней границы — эти стратегии являются активными, остальные стратегии — пассивные (т. е. их вероятности равны нулю). На рис. 1.9 активными являются стратегии А 1 и А 3 (выделены). 4. Далее решаем задачу 2×2 (с активными стратегиями А 1 и А 3)забыв про пассивные стратегии до тех пор, пока не записываем ответ. В крайних случаях определение оптимальной стратегии игрока А производится аналогично тому, как в игре 2× n определяется оптимальная стратегия игрока В.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|