Ближайшие агенты оптимизации политики

Ближайшая оптимизация политики (PPO) является без моделей, онлайн, на политике, методом обучения с подкреплением градиента политики. Этот алгоритм является типом обучения градиента политики, которое чередуется между выборкой данных через экологическое взаимодействие и оптимизацией отсеченной суррогатной целевой функции с помощью стохастического градиентного спуска. Отсеченная суррогатная целевая функция улучшает учебную устойчивость путем ограничения размера изменения политики на каждом шаге. [1]

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Агенты PPO могут быть обучены в средах со следующим наблюдением и пространствами действий.

Пространство наблюдений	Пространство действий
Дискретный или непрерывный	Дискретный или непрерывный

Во время обучения, агента PPO:

Оценочные вероятности принятия каждых мер в пространстве действий и случайным образом выбирают действия на основе вероятностного распределения.
Взаимодействует со средой для нескольких шагов с помощью текущей политики перед использованием мини-пакетов, чтобы обновить агента и свойства критика за несколько эпох.

Агент и функция критика

Чтобы оценить политику и функцию ценности, агент PPO обеспечивает две функциональных аппроксимации:

Агент μ (S) — Агент берет наблюдение S и выводит вероятности принятия каждых мер в пространстве действий когда в S состояния.
Критик V (S) — Критик берет наблюдение S и выводит соответствующее ожидание обесцененного долгосрочного вознаграждения.

Когда обучение завершено, обученная оптимальная политика хранится в агенте μ (S).

Для получения дополнительной информации о создании агентов и критиков для приближения функций, смотрите, Создают Представления Функции ценности и политика.

Создание агента

Создать агента PPO:

Создайте агента с помощью rlStochasticActorRepresentation объект.
Создайте критика, использующего rlValueRepresentation объект.
Задайте опции агента с помощью rlPPOAgentOptions объект.
Создайте агента с помощью rlPPOAgent функция.

Агенты PPO поддерживают агентов и критиков, которые используют текущие глубокие нейронные сети в качестве аппроксимаций функций.

Алгоритм обучения

Агенты PPO используют следующий алгоритм настройки. Чтобы сконфигурировать алгоритм настройки, задайте опции с помощью rlPPOAgentOptions.

Инициализируйте агента μ (S) со случайными значениями параметров _θμ.
Инициализируйте критика V (S) со случайными значениями параметров _θV.
Сгенерируйте события N следующим текущая политика. Последовательность опыта:
$S_{t s}, A_{t s}, R_{t s + 1}, S_{t s + 1}, \dots, S_{t s + N - 1}, A_{t s + N - 1}, R_{t s + N}, S_{t s + N}$
Здесь, _St является наблюдением состояния, _At является мерами, принятыми от того состояния, _St+1 является следующим состоянием, и _Rt+1 является вознаграждением, полученным для перемещения от _St до _St+1.
Когда в _St состояния, агент вычисляет вероятность принятия каждых мер в пространстве действий с помощью μ (_St) и случайным образом выбирает действие _At на основе вероятностного распределения.
ts является шагом времени начала текущего набора событий N. В начале эпизода тренировки, ts = 1. Поскольку каждый последующий набор N испытывает в том же эпизоде тренировки, ts ← ts + N.
Для каждой последовательности опыта, которая не содержит конечное состояние, N равен ExperienceHorizon значение опции. В противном случае N меньше ExperienceHorizon и _SN является конечным состоянием.
Для каждого шага эпизода t = ts +1, ts +2, …, ts +N, вычисляет возврат и способствует функции с помощью метода, заданного AdvantageEstimateMethod опция.
- Конечный горизонт (AdvantageEstimateMethod = "finite-horizon") — Вычисляют возврат _Gt, который является суммой вознаграждения за тот шаг и обесцененного будущего вознаграждения. [2]
  $G_{t} = \sum_{k = t}^{t s + N} (γ^{k - t} R_{k}) + b γ^{N - t + 1} V (S_{t s + N} | θ_{V})$
  Здесь, b является 0 если _Sts+N является конечным состоянием и 1 в противном случае. Таким образом, если _Sts+N не является конечным состоянием, обесцененное будущее вознаграждение включает обесцененную функцию ценности состояния, вычисленное использование сети V критика.
  Вычислите функцию преимущества _Dt.
  $D_{t} = G_{t} - V (S_{t} | θ_{V})$
- Обобщенное средство оценки преимущества (AdvantageEstimateMethod = "gae") — Вычисляют функцию преимущества _Dt, который является обесцененной суммой временных ошибок различия. [3]
  $\begin{matrix} D_{t} = \sum_{k = t}^{t s + N - 1} {(γ λ)}^{k - t} δ_{k} \\ δ_{k} = R_{t} + b γ V (S_{t} | θ_{V}) \end{matrix}$
  Здесь, b является 0 если _Sts+N является конечным состоянием и 1 в противном случае. λ является заданным использованием коэффициента сглаживания GAEFactor опция.
  Вычислите возврат _Gt.
  $G_{t} = D_{t} - V (S_{t} | θ_{V})$
Чтобы задать коэффициент дисконтирования γ для любого метода, используйте DiscountFactor опция.
Извлеките уроки из мини-пакетов опыта за эпохи K. Чтобы задать K, используйте NumEpoch опция. В течение каждой эпохи изучения:
1. Произведите случайный мини-пакетный набор данных размера M от текущего набора опыта. Чтобы задать M, используйте MiniBatchSize опция. Каждый элемент мини-пакетного набора данных содержит текущий опыт и соответствующий возврат и значения функции преимущества.
2. Обновите параметры критика путем минимизации потери _Lcritic через все произведенные мини-пакетные данные.
  $L_{c r i t i c} (θ_{V}) = \frac{1}{M} \sum_{i = 1}^{M} {(G_{i} - V (S_{i} | θ_{V}))}^{2}$
3. Обновите параметры агента путем минимизации потери _Lactor через все произведенные мини-пакетные данные. Если EntropyLossWeight опция больше нуля, затем дополнительная энтропийная потеря добавляется к _Lactor, который поощряет исследование политики.
  $\begin{matrix} L_{a c t o r} (θ_{μ}) = - \frac{1}{M} \sum_{i = 1}^{M} \min (r_{i} (θ_{μ}) * D_{i}, c_{i} (θ_{μ}) * D_{i}) \\ r_{i} (θ_{μ}) = \frac{μ_{A i} (S_{i} | θ_{μ})}{μ_{A i} (S_{i} | θ_{μ, o l d})} \\ c_{i} (θ_{μ}) = \max (\min (r_{i} (θ_{μ}), 1 + ε), 1 - ε) \end{matrix}$
  Здесь:
  - _Di, _Gi является значением функции преимущества и возвращаемым значением для i th элемент мини-пакета, соответственно.
  - _μi (_Si |_θμ) является вероятностью принимающего меры _Ai когда в _Si состояния, учитывая обновленные параметры политики _θμ.
  - _μi (_Si |_θμ,old) является вероятностью принимающего меры _Ai когда в _Si состояния, учитывая предыдущие параметры политики (_θμ,old) до текущей эпохи изучения.
  - ε является заданным использованием фактора клипа ClipFactor опция.
Повторите шаги 3 - 5, пока эпизод тренировки не достигнет конечного состояния.

Ссылки

[1] Шульман, J., и др. "Ближайшие Алгоритмы Оптимизации политики", Технический отчет, ArXiv, 2017.

[2] Mnih, V., и др. "Асинхронные методы для глубокого обучения с подкреплением", Международная конференция по вопросам Машинного обучения, 2016.

[3] Шульман, J., и др. "Высоко-размерное Непрерывное Управление Используя Обобщенную Оценку Преимущества", Технический отчет, ArXiv, 2018.

Смотрите также

rlPPOAgent | rlPPOAgentOptions

Документация