Глубокие агенты Q-сети

Алгоритм глубокой Q-сети (DQN) является онлайновым, методом обучения с подкреплением вне политики без моделей. Агент DQN является основанным на значении агентом обучения с подкреплением, который обучает критика оценивать возврат или будущие вознаграждения. DQN является вариантом Q-изучения. Для получения дополнительной информации о Q-изучении смотрите Агентов Q-обучения.

Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.

Агенты DQN могут быть обучены в средах со следующим наблюдением и пространствами действий.

Пространство наблюдений	Пространство действий
Непрерывный или дискретный	Дискретный

Агенты DQN используют следующее представление критика.

Критик	Агент
Критик Q (S, A), Q-функции-ценности, который вы создаете использование `rlQValueRepresentation`	Агенты DQN не используют агента.

Во время обучения, агента:

Обновляет свойства критика на каждом временном шаге во время изучения.
Исследует пространство действий с помощью эпсилон-жадного исследования. Во время каждого контрольного интервала агент или выбирает случайное действие с вероятностью ϵ или выбирает действие жадно относительно функции ценности с вероятностью 1-ϵ. Это жадное действие является действием, для которого функция ценности является самой большой.
Прошлые опыты хранилищ с помощью кругового буфера опыта. Агент обновляет критика на основе мини-пакета событий, случайным образом произведенных от буфера.

Функция критика

Для подсчёта функции ценности агент DQN обеспечивает две функциональных аппроксимации:

Критик Q (S, A) — критик берет наблюдение S и действие A как входные параметры и возвращает соответствующее ожидание долгосрочного вознаграждения.
Предназначайтесь для критика Q' (S, A) — Чтобы улучшить устойчивость оптимизации, агент периодически обновляет целевого критика на основе последних значений параметров критика.

Оба Q (S, A) и Q' (S, A) имеет ту же структуру и параметризацию.

Для получения дополнительной информации о создании критиков для приближения функции ценности смотрите, Создают Представления Функции ценности и политика.

Когда обучение завершено, настроенная функциональная аппроксимация хранится в критике Q (S, A).

Создание агента

Можно создать агента DQN с представлением критика на основе спецификаций наблюдений и спецификаций действия от среды. Для этого выполните следующие шаги.

Создайте спецификации наблюдений для своей среды. Если у вас уже есть объект интерфейса среды, можно получить эти технические требования использование getObservationInfo.
Технические требования действия по созданию для вашей среды. Если у вас уже есть объект интерфейса среды, можно получить эти технические требования использование getActionInfo.
В случае необходимости задайте количество нейронов в каждом learnable слое или использовать ли слой LSTM. Для этого создайте объект опции инициализации агента использование rlAgentInitializationOptions.
В случае необходимости задайте опции агента с помощью rlDQNAgentOptions объект.
Создайте агента с помощью rlDQNAgent объект.

В качестве альтернативы можно создать представления актёра и критика и использовать эти представления, чтобы создать агента. В этом случае гарантируйте, что размерности ввода и вывода представлений актёра и критика совпадают с соответствующим действием и спецификациями наблюдений среды.

Создайте критика, использующего rlQValueRepresentation объект.
Задайте опции агента с помощью rlDQNAgentOptions объект.
Создайте агента с помощью rlDQNAgent объект.

Агенты DQN поддерживают критиков, которые используют текущие глубокие нейронные сети в качестве аппроксимаций функций.

Для получения дополнительной информации о создании агентов и критиков для приближения функций, смотрите, Создают Представления Функции ценности и политика.

Алгоритм обучения

Агенты DQN используют следующий алгоритм настройки, в котором они обновляют свою модель критика на каждом временном шаге. Чтобы сконфигурировать алгоритм настройки, задайте опции с помощью rlDQNAgentOptions объект.

Инициализируйте критика Q (s, a) со случайными значениями параметров _θQ, и инициализируйте целевого критика теми же значениями: $θ_{Q'} = θ_{Q}$ .
Для каждого учебного временного шага:
1. Для текущего наблюдения S выберите случайное действие A с вероятностью ϵ. В противном случае выберите действие, для которого функция ценности критика является самой большой.
  $A = \underset{A}{\arg \max} Q (S, A | θ_{Q})$
  Чтобы задать ϵ и его уровень затухания, используйте EpsilonGreedyExploration опция.
2. Выполните действие A. Наблюдайте вознаграждение R и следующее наблюдение S'.
3. Сохраните опыт (S, A, R, S') в буфере опыта.
4. Произведите случайный мини-пакет событий M (_Si, _Ai, _Ri, _S'i) от буфера опыта. Чтобы задать M, используйте MiniBatchSize опция.
5. Если _S'i является конечным состоянием, поставьте цель функции ценности _yi к _Ri. В противном случае установите его на
  $\begin{array}{l} \begin{array}{l} A_{\max} = \underset{A'}{\arg \max} Q (S_{i}', A' | θ_{Q}) \\ y_{i} = R_{i} + γ Q' (S_{i}', A_{\max} | θ_{Q'}) \end{array} & (double DQN) \\ y_{i} = R_{i} + γ \max_{A'} Q' (S_{i}', A' | θ_{Q'}) & (DQN) \end{array}$
  Чтобы установить коэффициент дисконтирования γ, используйте DiscountFactor опция. Чтобы использовать двойной DQN, установите UseDoubleDQN опция к true.
6. Обновите параметры критика минимизацией с одним шагом потери L через все произведенные события.
  $L = \frac{1}{M} \sum_{i = 1}^{M} {(y_{i} - Q (S_{i}, A_{i} | θ_{Q}))}^{2}$
7. Обновите целевые параметры критика в зависимости от целевого метода обновления Для получения дополнительной информации, см. Целевые Методы Обновления.
8. Обновите порог вероятности ϵ для выбора случайного действия на основе уровня затухания, который вы задаете в EpsilonGreedyExploration опция.

Целевые методы обновления

Агенты DQN обновляют свои целевые параметры критика с помощью одного из следующих целевых методов обновления.

Сглаживание — Обновление целевые параметры на каждом временном шаге с помощью коэффициента сглаживания τ. Чтобы задать коэффициент сглаживания, используйте TargetSmoothFactor опция.
$θ_{Q'} = τ θ_{Q} + (1 - τ) θ_{Q'}$
Периодический — Обновление целевые параметры периодически, не сглаживая (TargetSmoothFactor = 1). Чтобы задать период обновления, используйте TargetUpdateFrequency параметр.
Периодическое Сглаживание — Обновление целевые параметры периодически со сглаживанием.

Чтобы сконфигурировать целевой метод обновления, создайте a rlDQNAgentOptions объект и набор TargetUpdateFrequency и TargetSmoothFactor параметры как показано в следующей таблице.

Метод Update	`TargetUpdateFrequency`	`TargetSmoothFactor`
Сглаживание (значения по умолчанию)	1	Меньше, чем `1`
Периодический	Больше, чем `1`	1
Периодическое сглаживание	Больше, чем `1`	Меньше, чем `1`

Ссылки

[1] Mnih, Владимир, Koray Kavukcuoglu, Дэвид Сильвер, Алекс Грэйвс, Яннис Антоноглоу, Даан Вирстра и Мартин Ридмиллер. “Проигрывая Atari с Глубоким Обучением с подкреплением”. ArXiv:1312.5602 [Cs], 19 декабря 2013. https://arxiv.org/abs/1312.5602.

Смотрите также

rlDQNAgent | rlDQNAgentOptions

Документация