Глубоко детерминированные агенты градиента политики

Алгоритм глубоко детерминированного градиента политики (DDPG) является онлайновым, методом обучения с подкреплением вне политики без моделей. Агент DDPG является агентом обучения с подкреплением критика агента, который ищет оптимальную политику, которая максимизирует ожидаемое совокупное долгосрочное вознаграждение.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Агенты DDPG могут быть обучены в средах со следующим наблюдением и пространствами действий.

Пространство наблюдений	Пространство действий
Непрерывный или дискретный	Непрерывный

Агенты DDPG используют следующие представления актёра и критика.

Критик	Агент
Критик Q (S, A), Q-функции-ценности, который вы создаете использование `rlQValueRepresentation`	Детерминированный агент политики π (S), который вы создаете использование `rlDeterministicActorRepresentation`

Во время обучения, агента DDPG:

Обновляет агента и свойства критика на каждом временном шаге во время изучения.
Прошлые опыты хранилищ с помощью кругового буфера опыта. Агент обновляет агента и критика, использующего мини-пакет событий, случайным образом произведенных от буфера.
Тревожит действие, выбранное политикой с помощью стохастической шумовой модели на каждом учебном шаге.

Агент и функции критика

Чтобы оценить политику и функцию ценности, агент DDPG обеспечивает четыре функциональных аппроксимации:

Агент μ (S) — Агент берет наблюдение S и возвращает соответствующее действие, которое максимизирует долгосрочное вознаграждение.
Целевой агент μ' (S) — Чтобы улучшить устойчивость оптимизации, агент периодически обновляет целевого агента на основе последних значений параметров агента.
Критик Q (S, A) — критик берет наблюдение S и действие A как входные параметры и возвращает соответствующее ожидание долгосрочного вознаграждения.
Предназначайтесь для критика Q' (S, A) — Чтобы улучшить устойчивость оптимизации, агент периодически обновляет целевого критика на основе последних значений параметров критика.

Оба Q (S, A) и Q' (S, A) имеет ту же структуру и параметризацию, и и μ (S) и μ' (S) имеют ту же структуру и параметризацию.

Когда обучение завершено, обученная оптимальная политика хранится в агенте μ (S).

Для получения дополнительной информации о создании агентов и критиков для приближения функций, смотрите, Создают Представления Функции ценности и политика.

Создание агента

Можно создать агента DDPG с представлениями актёра и критика по умолчанию на основе спецификаций наблюдений и спецификаций действия от среды. Для этого выполните следующие шаги.

Создайте спецификации наблюдений для своей среды. Если у вас уже есть объект интерфейса среды, можно получить эти технические требования использование getObservationInfo.
Технические требования действия по созданию для вашей среды. Если у вас уже есть объект интерфейса среды, можно получить эти технические требования использование getActionInfo.
В случае необходимости задайте количество нейронов в каждом learnable слое или использовать ли слой LSTM. Для этого создайте объект опции инициализации агента использование rlAgentInitializationOptions.
В случае необходимости задайте опции агента с помощью rlDDPGAgentOptions объект.
Создайте агента с помощью rlDDPGAgent объект.

В качестве альтернативы можно создать представления актёра и критика и использовать эти представления, чтобы создать агента. В этом случае гарантируйте, что размерности ввода и вывода представлений актёра и критика совпадают с соответствующим действием и спецификациями наблюдений среды.

Создайте агента с помощью rlDeterministicActorRepresentation объект.
Создайте критика, использующего rlQValueRepresentation объект.
Задайте опции агента с помощью rlDDPGAgentOptions объект.
Создайте агента с помощью rlDDPGAgent объект.

Алгоритм обучения

Агенты DDPG используют следующий алгоритм настройки, в котором они обновляют своего агента и модели критика на каждом временном шаге. Чтобы сконфигурировать алгоритм настройки, задайте опции с помощью rlDDPGAgentOptions объект.

Инициализируйте критика Q (S, A) со случайными значениями параметров _θQ, и инициализируйте целевого критика теми же случайными значениями параметров: $θ_{Q'} = θ_{Q}$ .
Инициализируйте агента μ (S) со случайными значениями параметров _θμ и инициализируйте целевого агента теми же значениями параметров: $θ_{μ'} = θ_{μ}$ .
Для каждого учебного временного шага:
1. Для текущего наблюдения S выберите действие A = μ (S) + N, где N является стохастическим шумом из шумовой модели. Чтобы сконфигурировать шумовую модель, используйте NoiseOptions опция.
2. Выполните действие A. Наблюдайте вознаграждение R и следующее наблюдение S'.
3. Сохраните опыт (S, A, R, S') в буфере опыта.
4. Произведите случайный мини-пакет событий M (_Si, _Ai, _Ri, _S'i) от буфера опыта. Чтобы задать M, используйте MiniBatchSize опция.
5. Если _S'i является конечным состоянием, поставьте цель функции ценности _yi к _Ri. В противном случае установите его на
  $y_{i} = R_{i} + γ Q' (S_{i}', μ' (S_{i}' | θ_{μ}) | θ_{Q'})$
  Цель функции ценности является суммой вознаграждения опыта _Ri и обесцененное будущее вознаграждение. Чтобы задать коэффициент дисконтирования γ, используйте DiscountFactor опция.
  Чтобы вычислить совокупное вознаграждение, агент сначала вычисляет следующее действие путем передачи следующего наблюдения _Si' с произведенного опыта на целевого агента. Агент находит совокупное вознаграждение путем передачи следующего действия целевому критику.
6. Обновите параметры критика путем минимизации потери L через все произведенные события.
  $L = \frac{1}{M} \sum_{i = 1}^{M} {(y_{i} - Q (S_{i}, A_{i} | θ_{Q}))}^{2}$
7. Обновите параметры агента с помощью следующего произведенного градиента политики, чтобы максимизировать ожидаемое обесцененное вознаграждение.
  $\begin{array}{l} \nabla_{θ_{μ}} J \approx \frac{1}{M} \sum_{i = 1}^{M} G_{a i} G_{μ i} \\ G_{a i} = \nabla_{A} Q (S_{i}, A | θ_{Q}) где A = μ (S_{i} | θ_{μ}) \\ G_{μ i} = \nabla_{θ_{μ}} μ (S_{i} | θ_{μ}) \end{array}$
  Здесь, _Gai является градиентом критика выход относительно действия, вычисленного сетью агента, и _Gμi является градиентом агента выход относительно параметров агента. Оба градиента оценены для наблюдения _Si.
8. Обновите целевого агента и параметры критика в зависимости от целевого метода обновления. Для получения дополнительной информации см. Целевые Методы Обновления.

Для простоты агент и обновления критика в этом алгоритме показывают обновление градиента с помощью основного стохастического градиентного спуска. Фактический метод обновления градиента зависит от оптимизатора, вы задаете использование rlRepresentationOptions.

Целевые методы обновления

Агенты DDPG обновляют своего целевого агента и параметры критика с помощью одного из следующих целевых методов обновления.

Сглаживание — Обновление целевые параметры на каждом временном шаге с помощью коэффициента сглаживания τ. Чтобы задать коэффициент сглаживания, используйте TargetSmoothFactor опция.
$\begin{array}{l} θ_{Q'} = τ θ_{Q} + (1 - τ) θ_{Q'} (critic parameters) \\ θ_{μ'} = τ θ_{μ} + (1 - τ) θ_{μ'} (actor parameters) \end{array}$
Периодический — Обновление целевые параметры периодически, не сглаживая (TargetSmoothFactor = 1). Чтобы задать период обновления, используйте TargetUpdateFrequency параметр.
Периодическое Сглаживание — Обновление целевые параметры периодически со сглаживанием.

Чтобы сконфигурировать целевой метод обновления, создайте a rlDDPGAgentOptions объект и набор TargetUpdateFrequency и TargetSmoothFactor параметры как показано в следующей таблице.

Метод Update	`TargetUpdateFrequency`	`TargetSmoothFactor`
Сглаживание (значения по умолчанию)	1	Меньше, чем `1`
Периодический	Больше, чем `1`	1
Периодическое сглаживание	Больше, чем `1`	Меньше, чем `1`

Ссылки

[1] Lillicrap, Тимоти П., Джонатан Дж. Хант, Александр Прицель, Николас Хисс, Том Эрез, Ювал Тасса, Дэвид Сильвер и Даан Вирстра. “Непрерывное Управление с Глубоким Обучением с подкреплением”. ArXiv:1509.02971 [Cs, Статистика], 9 сентября 2015. https://arxiv.org/abs/1509.02971.

Смотрите также

rlDDPGAgent | rlDDPGAgentOptions

Документация