Марковские модели принятия решений
⇐ ПредыдущаяСтр 3 из 3 В данном разделе рассматриваются многостадийные задачи принятия решений с конечным числом состояний Элемент Такой процесс поведения системы называется марковским, если вероятность перехода системы в любое возможное состояние в каждый момент времени определяется только ее состоянием в предыдущий момент времени и не зависит от более ранней предыстории. Многие практические ситуации могут быть описаны с помощью аппарата марковских моделей. Рассмотрим конкретный пример. Пример 4.3. Некоторая фирма занимается промышленной разработкой программного обеспечения для компьютерных систем. В начале каждого года она решает задачу замены оборудования, включающего технические и программные средства, используемые в производственном процессе и обеспечивающие необходимую технологическую среду разработки. В зависимости от результатов экспертной оценки оборудования состояние фирмы (это система S) оценивается как "хорошее" (1), "удовлетворительное" (2) и "плохое" (3). Следовательно, система может находиться в одном из трех указанных состояний. Матрица переходных вероятностей может иметь вид: Здесь, например, число 0,3 означает, что если система находилась в "хорошем" состоянии, то в следующий момент изменения состояния (следующий момент анализа состояния фирмы) она окажется в "плохом" состоянии с данной вероятностью. В действительности изменение (ухудшение) состояния связано с процессом износа и устаревания оборудования и технологических сред. Если матрица переходных вероятностей не меняется, то достаточно просто проанализировать весь жизненный цикл системы S.
Предположим, что в зависимости от состояний, в которых последовательно оказывается система, может быть вычислен доход, приносимый фирмой. Логично предположить, что доход за период Для моделирования этой ситуации можно матрице переходных вероятностей Элемент Имея матрицы
В реально работающих фирмах по результатам экспертного анализа проводится периодическое обновление оборудования с изменением технологического окружения и обучением персонала. Данный процесс моделируется изменением матриц переходных вероятностей и доходов. В нашем примере они, например, могут измениться следующим образом: Здесь в матрице доходов мы учли затраты на реорганизацию и модификацию. Например, элемент На каждом этапе мы можем принять решение не проводить модернизацию фирмы и иметь матрицы С привлечением уже рассмотренного примера обсудим основные моменты выбора оптимального решения. Предположим, что планирование стратегии поведения фирмы осуществляется на конечный период времени. Покажем, что решение может быть основано на уже известном методе динамического программирования (метод Беллмана) в соответствии с общей концепцией анализа и оптимизации многошаговых задач. Пусть период Как обычно, квадратики означают решающие вершины. Каждый квадратик соответствует определенному состоянию системы в определенный момент времени. Знак
Следуя общему алгоритму динамического программирования, решаем задачу с конца. Двигаемся справа налево по решающим вершинам. Начнем с вершины При выборе Число 5,3 больше, чем 4,7, поэтому если мы окажемся в вершине Далее переходим к вершине Вершина Вершина Полученные числа 5,3, 3,1, 0,4 характеризуют один акт изменения состояния и получаемый при этом локальный доход. Далее эти вычисления уже не повторяются, а значения этих локальных доходов потребуются в дальнейших расчетах. Переходим теперь к началу второго года. Начнем с вершины Здесь число 5,3 отражает локальный доход этапа (рассчитанный ранее), а остальные слагаемые характеризуют наилучший ожидаемый доход, получаемый на оставшихся этапах. Для второго варианта решения для этой же вершины имеем: Теперь обратная процедура динамического программирования закончена и, двигаясь от начала дерева решений к концу, можно "прочитать" оптимальное решение. А именно: числа 10,74, 7,92, 4,23 означают оптимальный ожидаемый доход, если, соответственно, система находилась первоначально в состояниях 1, 2 и 3. Эти ожидаемые доходы достигаются, если мы всегда будем вести себя "оптимально", т. е. в соответствии с помеченными на дереве решений стрелками. В частности, в каком бы состоянии мы ни находились в начале первого года, целесообразно решение, связанное с модернизацией оборудования. То же относится к началу второго года (все выделенные стрелки направлены "вниз"). И только если в начале третьего года мы окажемся в состоянии 1, нам нецелесообразно проводить модернизацию оборудования фирмы.
Поставленная задача решена. Расчетные формулы метода динамического программирования можно представить в общем виде. Обозначим Обратное рекуррентное уравнение, связывающее Полученное уравнение основано на том, что первая сумма представляет ожидаемый локальный доход полученный на Так как величина локального дохода не зависит от номера этапа, то его можно рассчитать лишь один раз. Введя обозначение
рекуррентное уравнение метода Беллмана можно записать следующим образом:
Задача с конечным числом этапов может быть обобщена в двух направлениях. Во-первых, переходные вероятности и функции дохода не обязательно должны быть одинаковы для каждого временного отрезка. Можно использовать коэффициент дисконтирования (переоценки) ожидаемых доходов для последовательных этапов, вследствие чего значения В первом случае значения доходов и переходные вероятности должны быть функциями этапа
Второе обобщение заключается в следующем. Пусть (
Отметим, что в теории марковских процессов принятия решений рассматриваются также модели с бесконечным числом этапов. Эти и другие вопросы рассматриваются в учебной литературе [Таха 11].
Воспользуйтесь поиском по сайту: ![]() ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|