Агенты градиента политики

Алгоритм градиента политики (PG) является онлайновым, методом изучения укрепления на политике без моделей. Агент PG является основанным на политике агентом изучения укрепления, который непосредственно вычисляет оптимальную политику, которая максимизирует долгосрочное вознаграждение.

Для получения дополнительной информации о различных типах агентов изучения укрепления смотрите, что Укрепление Изучает Агенты.

Агенты PG могут быть обучены в средах со следующими пробелами наблюдения и действия.

Пространство наблюдений	Пробел действия
Непрерывный или дискретный	Дискретный

Во время обучения, агента PG:

Оценочные вероятности принятия каждых мер на пробеле действия и случайным образом выбирают действия на основе распределения вероятностей.
Завершает полный учебный эпизод с помощью текущей политики перед учением из опыта и обновлением параметров политики.

Агент и функции критика

Агенты PG представляют политику с помощью функции агента approximator μ (S). Агент берет наблюдение S и выводит вероятности принятия каждых мер на пробеле действия когда в S состояния.

Чтобы уменьшать отклонение во время оценки градиента, агенты PG могут использовать базовую функцию значения, которая оценивается с помощью функции критика approximator, V (S). Критик вычисляет функцию значения для данного состояния наблюдения.

Для получения дополнительной информации о создании агентов и критиков для приближения функций, смотрите, Создают политику и Представления Функции Значения.

Создание агента

Создать агент PG:

Создайте объект представления агента.
Если вы используете базовую функцию, создаете объект представления критика.
Задайте опции агента с помощью функции rlPGAgentOptions.
Создайте агент с помощью функции rlPGAgent.

Для получения дополнительной информации смотрите rlPGAgent и rlPGAgentOptions.

Учебный алгоритм

Агенты PG используют REINFORCE (градиент политики Монте-Карло) алгоритм или с или без базовой линии. Чтобы сконфигурировать учебный алгоритм, задайте опции с помощью rlPGAgentOptions.

Алгоритм REINFORCE

Инициализируйте агента μ (S) со случайными значениями параметров _θμ.
Для каждого учебного эпизода сгенерируйте опыт эпизода следующей политикой агента μ (S). Чтобы выбрать действие, агент генерирует вероятности для каждого действия на пробеле действия, затем агент случайным образом выбирает действие на основе распределения вероятностей. Агент принимает меры, пока он не достигает терминального состояния, _ST. Опыт эпизода состоит из последовательности:
$S_{0}, A_{0}, R_{1}, S_{1}, \dots, S_{T - 1}, A_{T - 1}, R_{T}, S_{T}$
Здесь, _St является наблюдением состояния, _At+1 является мерами, принятыми от того состояния, _St+1 является следующим состоянием, и _Rt+1 является вознаграждением, полученным для перемещения от _St до _St+1.
Для каждого состояния в последовательности эпизода; то есть, для t = 1, 2, …, T-1, вычисляют возврат _Gt, который является обесцененным будущим вознаграждением.
$G_{t} = \sum_{k = t}^{T} γ^{k - t} R_{k}$
Накопите градиенты для сети агента следующим градиент политики, чтобы максимизировать ожидаемое обесцененное вознаграждение. Если опция EntropyLossWeight больше, чем нуль, то дополнительные градиенты накапливаются, чтобы минимизировать энтропийную функцию потерь.
$d θ_{μ} = \sum_{t = 1}^{T - 1} G_{t} \nabla_{θ_{μ}} \ln μ (S_{t} | θ_{μ})$
Обновите параметры агента путем применения градиентов.
$θ_{μ} = θ_{μ} + α d θ_{μ}$
Здесь, α является темпом обучения агента. Задайте темп обучения, когда вы создадите представление агента путем установки опции LearnRate в объекте rlRepresentationOptions. Для простоты этот шаг показывает обновление градиента с помощью основного стохастического спуска градиента. Фактический метод обновления градиента зависит от оптимизатора, заданного с помощью rlRepresentationOptions.
Повторите шаги 2 - 5 для каждого учебного эпизода, пока обучение не будет завершено.

REINFORCE с базовым алгоритмом

Инициализируйте агента μ (S) со случайными значениями параметров _θμ.
Инициализируйте критика V (S) со случайными значениями параметров _θQ.
Для каждого учебного эпизода сгенерируйте опыт эпизода следующей политикой агента μ (S). Опыт эпизода состоит из последовательности:
$S_{0}, A_{0}, R_{1}, S_{1}, \dots, S_{T - 1}, A_{T - 1}, R_{T}, S_{T}$
Для t = 1, 2, …, T:
- Вычислите возврат _Gt, который является обесцененным будущим вознаграждением.
  $G_{t} = \sum_{k = t}^{T} γ^{k - t} R_{k}$
- Вычислите функцию преимущества _δt с помощью базовой оценки функции значения от критика.
  $δ_{t} = G_{t} - V (S_{t} | θ_{V})$
Накопите градиенты для сети критика.
$d θ_{V} = \sum_{t = 1}^{T - 1} δ_{t} \nabla_{θ_{V}} V (S_{t} | θ_{V})$
Накопите градиенты для сети агента. Если опция EntropyLossWeight больше, чем нуль, то дополнительные градиенты накапливаются, чтобы минимизировать энтропийную функцию потерь.
$d θ_{μ} = \sum_{t = 1}^{T - 1} δ_{t} \nabla_{θ_{μ}} \ln μ (S_{t} | θ_{μ})$
Обновите параметры критика _θV.
$θ_{V} = θ_{V} + β d θ_{V}$
Здесь, β является темпом обучения критика. Задайте темп обучения, когда вы создадите представление критика путем установки опции LearnRate в объекте rlRepresentationOptions.
Обновите параметры агента _θμ.
$θ_{μ} = θ_{μ} + α d θ_{μ}$
Повторите шаги 3 - 8 для каждого учебного эпизода, пока обучение не будет завершено.

Для простоты этот агент и обновления критика в этом алгоритме показывают обновление градиента с помощью основного стохастического спуска градиента. Фактический метод обновления градиента зависит от оптимизатора, заданного с помощью rlRepresentationOptions.

Ссылки

[1] Р. Дж. Уильямс, “Простые статистические следующие за градиентом алгоритмы для ассоциативного изучения укрепления", Машинное обучение, издание 8, выпуск 3-4, стр 229-256, 1992.

Документация