Агенты градиента политики

Алгоритм градиента политики (PG) является онлайновым, методом обучения с подкреплением на политике без моделей. Агент PG является основанным на политике агентом обучения с подкреплением, который непосредственно вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Агенты PG могут быть обучены в средах со следующим наблюдением и пространствами действий.

Пространство наблюдений	Пространство действий
Дискретный или непрерывный	Дискретный или непрерывный

Во время обучения, агента PG:

Оценочные вероятности принятия каждых мер в пространстве действий и случайным образом выбирают действия на основе вероятностного распределения.
Завершает полный эпизод тренировки с помощью текущей политики перед учением из опыта и обновлением параметров политики.

Агент и функции критика

Агенты PG представляют политику с помощью аппроксимации функции агента μ (S). Агент берет наблюдение S и возвращает вероятности принятия каждых мер в пространстве действий когда в S состояния.

Чтобы уменьшать отклонение во время оценки градиента, агенты PG могут использовать базовую функцию ценности, которая оценивается с помощью аппроксимации функции критика, V (S). Критик вычисляет функцию ценности для состояния заданного наблюдения.

Для получения дополнительной информации о создании агентов и критиков для приближения функций, смотрите, Создают Представления Функции ценности и политика.

Создание агента

Можно создать агента PG с представлениями актёра и критика по умолчанию на основе спецификаций наблюдений и спецификаций действия от среды. Для этого выполните следующие шаги.

Создайте спецификации наблюдений для своей среды. Если у вас уже есть объект интерфейса среды, можно получить эти технические требования использование getObservationInfo.
Технические требования действия по созданию для вашей среды. Если у вас уже есть объект интерфейса среды, можно получить эти технические требования использование getActionInfo.
В случае необходимости задайте количество нейронов в каждом learnable слое или использовать ли слой LSTM. Для этого создайте объект опции инициализации агента использование rlAgentInitializationOptions.
В случае необходимости задайте опции агента с помощью rlPGAgentOptions объект.
Создайте агента с помощью rlPGAgent объект.

В качестве альтернативы можно создать представления актёра и критика и использовать эти представления, чтобы создать агента. В этом случае гарантируйте, что размерности ввода и вывода представлений актёра и критика совпадают с соответствующим действием и спецификациями наблюдений среды.

Создайте представление актера с помощью rlStochasticActorRepresentation объект.
Если вы используете базовую функцию, создаете критика, использующего rlValueRepresentation объект.
Задайте опции агента с помощью rlPGAgentOptions объект.
Создайте агента с помощью rlPGAgent объект.

Алгоритм обучения

Агенты PG используют REINFORCE (градиент политики Монте-Карло) алгоритм или с или без базовой линии. Чтобы сконфигурировать алгоритм настройки, задайте опции с помощью rlPGAgentOptions объект.

Алгоритм REINFORCE

Инициализируйте агента μ (S) со случайными значениями параметров _θμ.
Для каждого эпизода тренировки сгенерируйте опыт эпизода следующей политикой агента μ (S). Чтобы выбрать действие, агент генерирует вероятности для каждого действия в пространстве действий, затем агент случайным образом выбирает действие на основе вероятностного распределения. Агент принимает меры, пока он не достигает конечного состояния _ST. Опыт эпизода состоит из последовательности
$S_{0}, A_{0}, R_{1}, S_{1}, \dots, S_{T - 1}, A_{T - 1}, R_{T}, S_{T}$
Здесь, _St является наблюдением состояния, _At+1 является мерами, принятыми от того состояния, _St+1 является следующим состоянием, и _Rt+1 является вознаграждением, полученным для перемещения от _St до _St+1.
Для каждого состояния в последовательности эпизода, то есть, для t = 1, 2, …, T-1, вычисляют возврат _Gt, который является обесцененным будущим вознаграждением.
$G_{t} = \sum_{k = t}^{T} γ^{k - t} R_{k}$
Накопите градиенты для сети агента следующим градиент политики, чтобы максимизировать ожидаемое обесцененное вознаграждение. Если EntropyLossWeight опция больше нуля, затем дополнительные градиенты накапливаются, чтобы минимизировать энтропийную функцию потерь.
$d θ_{μ} = \sum_{t = 1}^{T - 1} G_{t} \nabla_{θ_{μ}} \ln μ (S_{t} | θ_{μ})$
Обновите параметры агента путем применения градиентов.
$θ_{μ} = θ_{μ} + α d θ_{μ}$
Здесь, α является скоростью обучения агента. Задайте скорость обучения, когда вы создадите представление актера путем установки LearnRate опция в rlRepresentationOptions объект. Для простоты этот шаг показывает обновление градиента с помощью основного стохастического градиентного спуска. Фактический метод обновления градиента зависит от оптимизатора, вы задаете использование rlRepresentationOptions.
Повторите шаги 2 - 5 для каждого эпизода тренировки, пока обучение не будет завершено.

REINFORCE с базовым алгоритмом

Инициализируйте агента μ (S) со случайными значениями параметров _θμ.
Инициализируйте критика V (S) со случайными значениями параметров _θQ.
Для каждого эпизода тренировки сгенерируйте опыт эпизода следующим политика агента μ (S). Опыт эпизода состоит из последовательности
$S_{0}, A_{0}, R_{1}, S_{1}, \dots, S_{T - 1}, A_{T - 1}, R_{T}, S_{T}$
Для t = 1, 2, …, T:
- Вычислите возврат _Gt, который является обесцененным будущим вознаграждением.
  $G_{t} = \sum_{k = t}^{T} γ^{k - t} R_{k}$
- Вычислите функцию преимущества _δt с помощью базовой оценки функции ценности от критика.
  $δ_{t} = G_{t} - V (S_{t} | θ_{V})$
Накопите градиенты для сети критика.
$d θ_{V} = \sum_{t = 1}^{T - 1} δ_{t} \nabla_{θ_{V}} V (S_{t} | θ_{V})$
Накопите градиенты для сети агента. Если EntropyLossWeight опция больше нуля, затем дополнительные градиенты накапливаются, чтобы минимизировать энтропийную функцию потерь.
$d θ_{μ} = \sum_{t = 1}^{T - 1} δ_{t} \nabla_{θ_{μ}} \ln μ (S_{t} | θ_{μ})$
Обновите параметры критика _θV.
$θ_{V} = θ_{V} + β d θ_{V}$
Здесь, β является скоростью обучения критика. Задайте скорость обучения при создании представления критика путем установки LearnRate опция в rlRepresentationOptions объект.
Обновите параметры агента _θμ.
$θ_{μ} = θ_{μ} + α d θ_{μ}$
Повторите шаги 3 - 8 для каждого эпизода тренировки, пока обучение не будет завершено.

Для простоты агент и обновления критика в этом алгоритме показывают обновление градиента с помощью основного стохастического градиентного спуска. Фактический метод обновления градиента зависит от оптимизатора, вы задаете использование rlRepresentationOptions.

Ссылки

[1] Уильямс, Рональд Дж. “Простые Статистические Следующие за градиентом Алгоритмы для Ассоциативного Обучения с подкреплением”. Машинное обучение 8, № 3-4 (май 1992): 229–56. https://doi.org/10.1007/BF00992696.

Смотрите также

rlPGAgent | rlPGAgentOptions

Документация