Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Марковские модели принятия решений




В данном разделе рассматриваются многостадийные задачи принятия решений с конечным числом состояний оптимизируемой системы S. Предполагается, что в дискретные моменты времени система переходит в новое состояние в соответствии с некоторой матри­цей переходных вероятностей:

Элемент матрицы означает вероятность перехода системы из состоя­ния , в состояние . Таким образом, строки матрицы соответствуют "старым", а столбцы — "новым" состояниям. Очевидно, сумма элементов любой строки матрицы равна 1.

Такой процесс поведения системы называется марковским, если вероят­ность перехода системы в любое возможное состояние в каждый момент времени определяется только ее состоянием в предыдущий момент вре­мени и не зависит от более ранней предыстории.

Многие практические ситуации могут быть описаны с помощью аппара­та марковских моделей. Рассмотрим конкретный пример.

Пример 4.3. Некоторая фирма занимается промышленной разработкой программного обеспечения для компьютерных систем. В начале каждого года она решает задачу замены оборудования, включающего техниче­ские и программные средства, используемые в производственном про­цессе и обеспечивающие необходимую технологическую среду разработ­ки. В зависимости от результатов экспертной оценки оборудования состояние фирмы (это система S) оценивается как "хорошее" (1), "удов­летворительное" (2) и "плохое" (3). Следовательно, система может нахо­диться в одном из трех указанных состояний. Матрица переходных веро­ятностей может иметь вид:

Здесь, например, число 0,3 означает, что если система находилась в "хо­рошем" состоянии, то в следующий момент изменения состояния (сле­дующий момент анализа состояния фирмы) она окажется в "плохом" состоянии с данной вероятностью. В действительности изменение (ухуд­шение) состояния связано с процессом износа и устаревания оборудова­ния и технологических сред. Если матрица переходных вероятностей не меняется, то достаточно просто проанализировать весь жизненный цикл системы S.

Предположим, что в зависимости от состояний, в которых последова­тельно оказывается система, может быть вычислен доход, приносимый фирмой. Логично предположить, что доход за период зависит от уровня оснащенности фирмы современным оборудованием и технологи­ческим окружением, включая профессиональный уровень персонала, также требующий непрерывного повышения. В свою очередь, уровень оснащенности в значительной степени коррелирует с тем состоянием, в котором находилась фирма в начале рассматриваемого периода и в его конце. Если, например, в момент времени , система находилась в "хорошем" состоянии и в момент это состояние сохранилось, то, по-видимому, доход будет максимальным (конечно, при выполнении про­чих условий, связанных с наличием заказов, ситуации на рынке и т. д.).

Для моделирования этой ситуации можно матрице переходных вероят­ностей поставить в соответствие матрицу доходов :

Элемент матрицы означает доход, полученный за период , при переходе системы из состояния в состояние . Так, число 5 означает до­ход, выраженный в некоторых условных единицах, при сохранении сис­темой "удовлетворительного" состояния. Отрицательные значения отра­жают потери.

Имея матрицы и можно достаточно просто прогнозировать ре­зультаты функционирования системы. Ясно, что со временем оборудо­вание устаревает и нуждается в обновлении в соответствии с новыми ме­ждународными стандартами и требованиями рынка. В результате при постоянных матрицах и система может деградировать, неизменно оставаясь в плохом состоянии и принося одни убытки.

В реально работающих фирмах по результатам экспертного анализа проводится периодическое обновление оборудования с изменением тех­нологического окружения и обучением персонала. Данный процесс мо­делируется изменением матриц переходных вероятностей и доходов. В нашем примере они, например, могут измениться следующим образом:

Здесь в матрице доходов мы учли затраты на реорганизацию и модифи­кацию. Например, элемент матрицы оказывается меньше соответ­ствующего элемента матрицы .

На каждом этапе мы можем принять решение не проводить модерниза­цию фирмы и иметь матрицы и или принять решение о необходи­мых изменениях и получить матрицы , . Возникает проблема выбора или принятия решений с целью максимизации приносимого фирмой ожидаемого (речь идет о вероятностях!) дохода. Это многоэтапная зада­ча принятия решений, т. к. выбор осуществляется каждый раз в заданные дискретные моменты времени.

С привлечением уже рассмотренного примера обсудим основные момен­ты выбора оптимального решения. Предположим, что планирование стратегии поведения фирмы осуществляется на конечный период време­ни. Покажем, что решение может быть основано на уже известном мето­де динамического программирования (метод Беллмана) в соответствии с общей концепцией анализа и оптимизации многошаговых задач.

Пусть период соответствует одному году, а планирование прово­дится на трехлетний период. Для наглядности соответствующее дерево решений можно представить графически (рис. 4.11).

Как обычно, квадратики означают решающие вершины. Каждый квад­ратик соответствует определенному состоянию системы в определенный момент времени. Знак внутри квадрата означает, что в момент времени (номер этапа) система находится в состоянии (соответственно, "хорошее", "удовлетворительное" или "плохое" состояние). Две стрелки, исходящие из каждой "решающей" вершины, указывают на две альтернативы на каждом этапе: – не проводить модернизацию (это верхняя стрелка, будем называть ее стрелкой или направлением 1) или – проводить (это нижняя стрелка, будем называть ее стрелкой или направлением 2). Альтернативы соответствуют круглым вершинам, пере­ход из которых осуществляется в соответствии с выбранной матрицей переходных вероятностей.

Следуя общему алгоритму динамического программирования, решаем задачу с конца. Двигаемся справа налево по решающим вершинам. Нач­нем с вершины . Тогда при принятии решения (без модернизации) ожидаемый доход равен

При выборе (модернизация) имеем:

Число 5,3 больше, чем 4,7, поэтому если мы окажемся в вершине , то пойдем по направлению 1, а сама вершина помечается числом 5,3. Стрелка 1 также выделяется.

Далее переходим к вершине . Получаем значения двух доходов в зави­симости от принимаемых решений:

Вершина помечается числом 3,1 и выделяется направление 2. Для вершины получим:

Вершина помечается большим числом 0,4 и выделяется стрелка 2.

Полученные числа 5,3, 3,1, 0,4 характеризуют один акт изменения со­стояния и получаемый при этом локальный доход. Далее эти вычисления уже не повторяются, а значения этих локальных доходов потребуются в дальнейших расчетах.

Переходим теперь к началу второго года. Начнем с вершины . При вы­боре направления (решения) 1 имеем:

Здесь число 5,3 отражает локальный доход этапа (рассчитанный ранее), а остальные слагаемые характеризуют наилучший ожидаемый доход, по­лучаемый на оставшихся этапах. Для второго варианта решения для этой же вершины имеем:

Теперь обратная процедура динамического программирования законче­на и, двигаясь от начала дерева решений к концу, можно "прочитать" оп­тимальное решение. А именно: числа 10,74, 7,92, 4,23 означают опти­мальный ожидаемый доход, если, соответственно, система находилась первоначально в состояниях 1, 2 и 3. Эти ожидаемые доходы достигают­ся, если мы всегда будем вести себя "оптимально", т. е. в соответствии с помеченными на дереве решений стрелками. В частности, в каком бы со­стоянии мы ни находились в начале первого года, целесообразно реше­ние, связанное с модернизацией оборудования. То же относится к началу второго года (все выделенные стрелки направлены "вниз"). И только ес­ли в начале третьего года мы окажемся в состоянии 1, нам нецелесооб­разно проводить модернизацию оборудования фирмы.

Поставленная задача решена.

Расчетные формулы метода динамического программирования можно представить в общем виде.

Обозначим – общее количество этапов, а – оптимальный ожидаемый доход, полученный на этапах от до включительно при условии, что система находится в начале -го этапа в состоянии .

Обратное рекуррентное уравнение, связывающее и можно записать в виде , где для всех , – число состояний для каждого этапа, – номер альтернативы.

Полученное уравнение основано на том, что первая сумма представляет ожидаемый локальный доход полученный на -м этапе при выборе -й альтернативы, а вторая сумма – математическое ожидание дохода последующих этапов. Вероятность – есть вероятность того, что на этапе система окажется в состоянии в результате принятия решения .

Так как величина локального дохода не зависит от номера этапа, то его можно рассчитать лишь один раз. Введя обозначение

,

рекуррентное уравнение метода Беллмана можно записать следующим образом:

,

.

Задача с конечным числом этапов может быть обобщена в двух направлениях. Во-первых, переходные вероятности и функции дохода не обязательно должны быть одинаковы для каждого временного отрезка. Можно использовать коэффициент дисконтирования (переоценки) ожидаемых доходов для последовательных этапов, вследствие чего значения будут представлять собой приведенные величины ожидаемых доходов.

В первом случае значения доходов и переходные вероятности должны быть функциями этапа . Здесь рекуррентное уравнение приобретает вид:

,

, где

.

Второе обобщение заключается в следующем. Пусть () – годовой коэффициент переоценки (дисконтирования), тогда долларов будущего года равны долларам настоящего года. При введении коэффициента переоценки исходное рекуррентное уравнение преобразуется в следующее:

,

.

Отметим, что в теории марковских процессов принятия решений рас­сматриваются также модели с бесконечным числом этапов. Эти и другие вопросы рассматриваются в учебной литературе [Таха 11].

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...