Задайте сигналы вознаграждения

Чтобы вести процесс обучения, обучение с подкреплением использует скалярный сигнал вознаграждения, сгенерированный средой. Этот сигнал измеряет уровень агента относительно целей задачи. Другими словами, для заданного наблюдения (состояние), вознаграждение измеряет его эффективность принятия конкретных мер. Во время обучения агент обновляет свою политику на основе вознаграждений, полученных для различных комбинаций состояния активности. Для получения дополнительной информации о различных типах агентов и как они используют сигнал вознаграждения во время обучения, смотрите Агентов Обучения с подкреплением.

В общем случае вы предоставляете положительное вознаграждение, чтобы поощрить определенные действия агента и отрицательное вознаграждение (штраф) препятствовать другим действиям. Хорошо спроектированный сигнал вознаграждения ведет агента, чтобы максимизировать ожидание долгосрочного вознаграждения. То, что составляет хорошо спроектированное вознаграждение, зависит от вашего приложения и целей агента.

Например, когда агент должен выполнить задачу максимально долго, общая стратегия состоит в том, чтобы предоставить маленькое положительное вознаграждение за каждый временной шаг, что агент успешно выполняет задачу и большой штраф, когда агент перестал работать. Этот подход поощряет более длинные эпизоды тренировки в то время как в большой степени обескураживающие эпизоды тот сбой. Для примера, который использует этот подход, смотрите, Обучают Агента DQN Балансировать Систему Тележки с шестом.

Если ваша премиальная функция включает несколько сигналов, таких как положение, скорость и усилие по управлению, необходимо рассмотреть относительные размеры сигналов и масштабировать их вклады в сигнал вознаграждения соответственно.

Можно задать или непрерывные или дискретные сигналы вознаграждения. В любом случае необходимо обеспечить сигнал вознаграждения, который предоставляет богатую информацию, когда сигналы действия и наблюдения изменяются.

Непрерывные вознаграждения

Непрерывная функция вознаграждения изменяется постоянно с изменениями в наблюдениях среды и действиях. В целом непрерывные сигналы вознаграждения улучшают сходимость во время обучения и могут привести к более простым сетевым структурам.

Примером непрерывного вознаграждения является функция стоимости квадратичного регулятора (QR), где долгосрочное вознаграждение может быть описано как

$J_{i} = - (s_{τ}^{T} Q_{τ} s_{τ} + \sum_{j = i}^{τ} s_{j}^{T} Q_{j} s_{j} + a_{j}^{T} R_{j} a_{j} + 2 s_{j}^{T} N_{j} a_{j})$

Здесь, _Qτ, Q, R и N являются матрицами веса. _Qτ является терминальной матрицей веса, примененной только в конце эпизода. Кроме того, s является вектором наблюдения, a является вектором действия, и τ является терминальной итерацией эпизода. Мгновенное вознаграждение за эту функцию стоимости

$r_{i} = s_{i}^{T} Q_{i} s_{i} + a_{i}^{T} R_{i} a_{i} + 2 s_{i}^{T} N_{i} a_{i}$

Эта премиальная структура QR поощряет управлять s, чтобы обнулить с минимальным усилием по действию. Основанная на QR премиальная структура является хорошим вознаграждением, чтобы выбрать для регулирования или стационарных проблем точки, таких как колебание маятника или регулирование положения двойного интегратора. Для учебных примеров, которые используют вознаграждение QR, смотрите, Обучают Агента DQN к Swing и Маятнику Баланса и Обучают Агента DDPG Управлять Двойной Системой Интегратора.

Сглаживайте непрерывные вознаграждения, такие как регулятор QR, хороши для подстройки параметров и может обеспечить политики, похожие на оптимальные контроллеры (LQR/MPC).

Дискретные вознаграждения

Дискретная премиальная функция варьируется с перерывами с изменениями в наблюдениях среды или действиях. Эти типы сигналов вознаграждения могут сделать сходимость медленнее и могут потребовать более комплексных структур сети. Дискретные вознаграждения обычно реализуются как события, которые происходят в среде — например, когда агент получает положительное вознаграждение, если это превышает некоторое целевое значение или штраф, когда это нарушает некоторое ограничение эффективности.

Несмотря на то, что дискретные вознаграждения могут замедлить сходимость, они могут привести агента к лучшим областям вознаграждений в пространстве состояний среды. Например, находящееся в области вознаграждение, такое как фиксированное вознаграждение, когда агент около целевого местоположения, может эмулировать ограничения конечного состояния. Кроме того, региональный штраф может поощрять агента избегать определенных областей пространства состояний.

Смешанные вознаграждения

Во многих случаях обеспечение смешанного сигнала вознаграждения, который имеет комбинацию непрерывных и дискретных премиальных компонентов, выгодно. Дискретный сигнал вознаграждения может использоваться, чтобы отогнать систему от плохих состояний, и непрерывный сигнал вознаграждения может улучшить сходимость путем обеспечения сглаженного вознаграждения около целевых состояний. Например, в Обучают Агента DDPG Управлять Летающим Роботом, премиальная функция имеет три компонента: r ₁, r ₂, и r ₃.

$\begin{array}{l} r_{1} = 10 ((x_{t}^{2} + y_{t}^{2} + θ_{t}^{2}) < 0.5) \\ r_{2} = - 100 (| x_{t} | \geq 20 | | | y_{t} | \geq 20) \\ r_{3} = - (0.2 {(R_{t - 1} + L_{t - 1})}^{2} + 0.3 {(R_{t - 1} - L_{t - 1})}^{2} + 0.03 x_{t}^{2} + 0.03 y_{t}^{2} + 0.02 θ_{t}^{2}) \\ r = r_{1} + r_{2} + r_{3} \end{array}$

Здесь:

r ₁ является находящимся в области непрерывным вознаграждением, которое применяется только около целевого местоположения робота.
r ₂ является дискретным сигналом, который предоставляет большой штраф, когда робот перемещается далекий от целевого местоположения.
r ₃ является непрерывным штрафом QR, который касается всех состояний робота.

Документация