Система поддержки принятия решений
- 1 year ago
- 0
- 0
Марковский процесс принятия решений (МППР, англ. Markov decision process, MDP ) — математический формализм для марковского дискретного стохастического процесса управления, основа для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично зависят от лица, принимающего решения . МППР используется во множестве областей, включая робототехнику , автоматизированное управление , экономику и производство . Подход обучения с подкреплениями , основанный на данной модели, применяется, например, в нейронной сети AlphaZero .
Марковские процессы принятия решений представляют собой инструмент для постановки задачи обучения , где достижение цели осуществляется через взаимодействие и последовательное принятие решений. Окружающая среда (или просто среда), представляет собой сторону, с которой взаимодействует агент . Агент выбирает действия, в то время как среда реагирует на эти действия и предоставляет новые ситуации для агента. Кроме того, среда генерирует вознаграждения — числовые значения, которые агент стремится максимизировать с течением времени путем выбора действий. Инженерам будут более понятны термины: агент — устройство управления или контроллер, среда — управляемая система, действие — управляющий сигнал.
Формально определить марковский процесс принятия решений можно, задав 4- кортеж , где
Совместно агент и среда порождают траекторию .
Стратегия — функция (в общем случае распределение вероятностей ), сопоставляющая состоянию действие. При наличии такой функции МППР можно рассматривать как Марковскую цепь .
Формализм марковских процессов принятия решений является важной абстракцией задачи обучения целеустремленного агента в процессе взаимодействия. Он позволяет утверждает, что независимо от деталей механизмов восприятия, памяти и управления, а также от цели, которую преследует агент, любая задача обучения целенаправленному поведению может быть сведена к трем сигналам, которыми агент обменивается с окружающей средой: сигнал, представляющий выбор агента (действие), сигнал причины такого выбора (состояние среды), и сигнал, определяющий цель агента (вознаграждение). Этот формализм не всегда достаточен для описания всех задач обучения принятию решений, но он широко применяется и полезен.
Решить марковский процесс принятия решений означает найти оптимальную стратегию, максимизирующую вознаграждение ( функцию ценности ). Самая простая функция ценности — это математическое ожидание формального ряда , где , а математическое ожидание берётся в соответствии с распределением вероятности , но такую функцию можно использовать только если ряд сходится всегда, что обычно означает наличие конечного состояния МППР — такого, что и . Если же сходимость ряда не гарантируется, можно:
На практике второй вариант более гибкий, так как учитывает более долгосрочную перспективу и чаще используется именно он.
Для максимизации такого ряда вводят две функции:
А также их максимумы по всем стратегиям:
Можно доказать, что эти функции также являются функциями полезности состояния и полезности действия соответственно, а также, что они достигаются на детерминированной стратегии. Заметим, что по функции можно восстановить её стратегию, которая будет оптимальной.
Чтобы дать формальное определение оптимальной стратегии необходимо ввести отношение порядка на множестве стратегий. . Наибольшая стратегия называется оптимальной.
Можно доказать, что оптимальная стратегия существует.
Большинство алгоритмов марковских процессов принятия решений основаны на итерации уравнения Беллмана с фиксированной точкой. Примеры включают итерацию состояния среды ( англ. value iteration ), итерацию стратегии ( англ. policy iteration ), метод временных разностей ( англ. time difference, TD ), Q-обучение и т. д. Анализ этих алгоритмов в табличном случае и случае линейной аппроксимации функции часто использует свойство сжатия оператора Беллмана. В последнее десятилетие нелинейные аппроксимации, такие как нейронные сети , стали более популярными. Однако для нелинейных аппроксимаций функций это свойство сжатия уже не выполняется, что часто приводит к нестабильности. Было предложено множество вариантов и модификаций для стабилизации обучения, например, DQN ( англ. Deep Q-Network — «глубокая Q-сеть»), A3C ( англ. Asynchronous Advantage Actor-Critic — «агент-критик с асинхронным преимуществом»). Однако для этих алгоритмов по-прежнему отсутствуют теоретические гарантии.
Дискретные марковские процессы принятия решений хорошо изучены. Существуют расширения для непрерывных состояний среды с линейной или нелинейной аппроксимацией функций, случаев частичной наблюдаемости ( англ. partially observable MDP ), структурированных МППР (например, динамические байесовские сети англ. DBN ) и другие, но алгоритмы становятся намного менее устойчивыми.
{{
citation
}}
:
Игнорируется текст: "publication" (
справка
)
{{
citation
}}
:
Игнорируется текст: "publication" (
справка
)