Агенты критика агента

Можно использовать агента критика агента (AC), который использует онлайновый, метод обучения с подкреплением на политике без моделей, чтобы реализовать алгоритмы критика агента, такие как A2C и A3C. Цель этого агента состоит в том, чтобы оптимизировать политику (агент) непосредственно и обучить критика оценивать возврат или будущие вознаграждения. [1]

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Агенты AC могут быть обучены в средах со следующим наблюдением и пространствами действий.

Пространство наблюдений	Пространство действий
Дискретный или непрерывный	Дискретный или непрерывный

Во время обучения, агента AC:

Оценочные вероятности принятия каждых мер в пространстве действий и случайным образом выбирают действия на основе вероятностного распределения.
Взаимодействует со средой для нескольких шагов с помощью текущей политики прежде, чем обновить свойства критика и агент.

Агент и функция критика

Чтобы оценить политику и функцию ценности, агент AC обеспечивает две функциональных аппроксимации:

Агент μ (S) — Агент берет наблюдение S и выводит вероятности принятия каждых мер в пространстве действий когда в S состояния.
Критик V (S) — Критик берет наблюдение S и выводит соответствующее ожидание обесцененного долгосрочного вознаграждения.

Когда обучение завершено, обученная оптимальная политика хранится в агенте μ (S).

Для получения дополнительной информации о создании агентов и критиков для приближения функций, смотрите, Создают Представления Функции ценности и политика.

Создание агента

Создать агента AC:

Создайте агента с помощью rlStochasticActorRepresentation объект.
Создайте критика, использующего rlValueRepresentation объект.
Задайте опции агента с помощью rlACAgentOptions объект.
Создайте агента с помощью rlACAgent объект.

Алгоритм обучения

Агенты AC используют следующий алгоритм настройки. Чтобы сконфигурировать алгоритм настройки, задайте опции с помощью rlACAgentOptions объект.

Инициализируйте агента μ (S) со случайными значениями параметров _θμ.
Инициализируйте критика V (S) со случайными значениями параметров _θV.
Сгенерируйте события N следующим текущая политика. Последовательность опыта эпизода:
$S_{t s}, A_{t s}, R_{t s + 1}, S_{t s + 1}, \dots, S_{t s + N - 1}, A_{t s + N - 1}, R_{t s + N}, S_{t s + N}$
Здесь, _St является наблюдением состояния, _At является мерами, принятыми от того состояния, _St+1 является следующим состоянием, и _Rt+1 является вознаграждением, полученным для перемещения от _St до _St+1.
Когда в _St состояния, агент вычисляет вероятность принятия каждых мер в пространстве действий с помощью μ (_St) и случайным образом выбирает действие _At на основе вероятностного распределения.
ts является шагом времени начала текущего набора событий N. В начале эпизода тренировки, ts = 1. Поскольку каждый последующий набор N испытывает в том же эпизоде тренировки, ts = ts + N.
Для каждого эпизода тренировки, который не содержит конечное состояние, N равен NumStepsToLookAhead значение опции. В противном случае N меньше NumStepsToLookAhead и _SN является конечным состоянием.
Для каждого шага эпизода t = ts +1, ts +2, …, ts +N, вычисляет возврат _Gt, который является суммой вознаграждения за тот шаг и обесцененного будущего вознаграждения. Если _Sts+N не является конечным состоянием, обесцененное будущее вознаграждение включает обесцененную функцию ценности состояния, вычисленное использование сети V критика.
$G_{t} = \sum_{k = t}^{t s + N} (γ^{k - t} R_{k}) + b γ^{N - t + 1} V (S_{t s + N} | θ_{V})$
Здесь, b является 0 если _Sts+N является конечным состоянием и 1 в противном случае.
Чтобы задать коэффициент дисконтирования γ, используйте DiscountFactor опция.
Вычислите функцию преимущества _Dt.
$D_{t} = G_{t} - V (S_{t} | θ_{V})$
Накопите градиенты для сети агента следующим градиент политики, чтобы максимизировать ожидаемое обесцененное вознаграждение.
$d θ_{μ} = \sum_{t = 1}^{N} \nabla_{θ_{μ}} \ln μ (S_{t} | θ_{μ}) * D_{t}$
Накопите градиенты для сети критика путем минимизации потери среднеквадратичной погрешности между функцией ориентировочной стоимости V (_t) и вычисленным целевым возвратом _Gt через все события N. Если EntropyLossWeight опция больше нуля, затем дополнительные градиенты накапливаются, чтобы минимизировать энтропийную функцию потерь.
$d θ_{V} = \sum_{t = 1}^{N} \nabla_{θ_{V}} {(G_{t} - V (S_{t} | θ_{V}))}^{2}$
Обновите параметры агента путем применения градиентов.
$θ_{μ} = θ_{μ} + α d θ_{μ}$
Здесь, α является скоростью обучения агента. Задайте скорость обучения, когда вы создадите представление актера путем установки LearnRate опция в rlRepresentationOptions объект.
Обновите параметры критика путем применения градиентов.
$θ_{V} = θ_{V} + β d θ_{V}$
Здесь, β является скоростью обучения критика. Задайте скорость обучения при создании представления критика путем установки LearnRate опция в rlRepresentationOptions объект.
Повторите шаги 3 - 9 для каждого эпизода тренировки, пока обучение не будет завершено.

Для простоты агент и обновления критика в этом алгоритме показывают обновление градиента с помощью основного стохастического градиентного спуска. Фактический метод обновления градиента зависит от оптимизатора, заданного с помощью rlRepresentationOptions.

Ссылки

[1] Mnih, V, и др. "Асинхронные методы для глубокого обучения с подкреплением", Международная конференция по вопросам Машинного обучения, 2016.

Смотрите также

rlACAgent | rlACAgentOptions

Документация