exponenta event banner

Определение сигналов поощрения

Для управления процессом обучения при обучении усилению используется скалярный сигнал вознаграждения, генерируемый из среды. Этот сигнал измеряет производительность агента по отношению к целям задачи. Другими словами, для данного наблюдения (состояния) вознаграждение измеряет эффективность принятия конкретного действия. Во время обучения агент обновляет свою политику на основе вознаграждений, полученных за различные комбинации состояний и действий. Дополнительные сведения о различных типах агентов и о том, как они используют сигнал вознаграждения во время обучения, см. в разделе Усиление агентов обучения.

В целом, вы предоставляете положительное вознаграждение для поощрения определенных действий агента и отрицательное вознаграждение (штраф) для предотвращения других действий. Хорошо продуманный сигнал вознаграждения направляет агента на максимальное ожидание долгосрочного вознаграждения. Что представляет собой хорошо продуманное вознаграждение, зависит от вашего приложения и целей агента.

Например, когда агент должен выполнять задачу как можно дольше, общей стратегией является предоставление небольшого положительного вознаграждения за каждый шаг времени, когда агент успешно выполняет задачу, и большого штрафа, когда агент терпит неудачу. Этот подход поощряет более длительные обучающие эпизоды, в то же время сильно отпугивая эпизоды, которые терпят неудачу. Пример использования этого подхода см. в разделе Подготовка агента DQN к балансировке системы Cart-Pole.

Если функция вознаграждения включает в себя несколько сигналов, таких как положение, скорость и усилие управления, необходимо учитывать относительные размеры сигналов и соответственно масштабировать их вклад в сигнал вознаграждения.

Можно указать непрерывные или дискретные сигналы вознаграждения. В любом случае необходимо предоставить сигнал вознаграждения, который предоставляет богатую информацию при изменении сигналов действия и наблюдения.

Непрерывные вознаграждения

Непрерывная функция вознаграждения постоянно изменяется в зависимости от изменений в наблюдениях и действиях окружающей среды. В целом, непрерывные сигналы вознаграждения улучшают сходимость во время обучения и могут привести к упрощению сетевых структур.

Примером непрерывного вознаграждения является функция стоимости квадратичного регулятора (QR), где долгосрочное вознаграждение может быть выражено как

Цзи = (sτTQτsτ+∑j=iτsjTQjsj+ajTRjaj+2sjTNjaj)

Здесь, , Q, R, и N - матрицы веса. Qstart- матрица концевого веса, применяемая только в конце эпизода. Кроме того, s - вектор наблюдения, а - вектор действия, и, («») - терминальная итерация эпизода. Мгновенное вознаграждение для этой функции затрат

ri = siTQisi + aiTRiai + 2siTNiai

Эта структура вознаграждения QR стимулирует приведение s к нулю с минимальными усилиями. Основанная на QR структура вознаграждения является хорошим вознаграждением для выбора регулирования или стационарных точечных проблем, таких как маятниковое качание вверх или регулирование положения двойного интегратора. Примеры обучения, в которых используется вознаграждение за QR, см. в разделе Подготовка агента DQN к переключению вверх и балансировке маятника и подготовка агента DDPG к управлению системой двойного интегратора.

Плавные непрерывные вознаграждения, такие как QR регулятор, хорошо подходят для тонкой настройки параметров и могут обеспечить политики, аналогичные оптимальным контроллерам (LQR/MPC).

Дискретные вознаграждения

Дискретная функция вознаграждения периодически изменяется в зависимости от изменений в наблюдениях или действиях окружающей среды. Эти типы сигналов вознаграждения могут замедлять сходимость и требовать более сложных сетевых структур. Дискретные вознаграждения обычно реализуются как события, происходящие в среде - например, когда агент получает положительное вознаграждение, если оно превышает какое-то целевое значение, или штраф, когда оно нарушает некоторое ограничение производительности.

В то время как дискретные вознаграждения могут замедлять конвергенцию, они также могут направлять агента к лучшим областям вознаграждения в пространстве состояния окружающей среды. Например, вознаграждение на основе региона, такое как фиксированное вознаграждение, когда агент находится рядом с целевым местоположением, может эмулировать ограничения конечного состояния. Кроме того, региональный штраф может побудить агента избегать определенных областей государственного пространства.

Смешанные вознаграждения

Во многих случаях полезно обеспечить смешанный сигнал вознаграждения, который имеет комбинацию непрерывных и дискретных компонентов вознаграждения. Дискретный сигнал вознаграждения может быть использован для того, чтобы отогнать систему от плохих состояний, и непрерывный сигнал вознаграждения может улучшить сходимость, обеспечивая плавное вознаграждение вблизи целевых состояний. Например, в Train DDPG Agent to Control Flying Robot функция вознаграждения имеет три компонента: r1, r2 и r3.

r1 = 10 ((xt2 + yt2 + startt2) < 0,5) r2 = 100 (|xt|≥20|||yt|≥20) r3 = (0,2 (Rt 1 + Lt − 1) 2 + 0,3 (Rt 1 Lt 1) 2 + 0,03xt2 + 0,03yt2 + 0,02ü t2) r = r1 + r2 + r3

Здесь:

  • r1 - непрерывное вознаграждение на основе области, которое применяется только вблизи целевого местоположения робота.

  • r2 - это дискретный сигнал, который обеспечивает большой штраф, когда робот перемещается далеко от целевого местоположения.

  • r3 - непрерывный штраф QR, который применяется для всех состояний робота.

Связанные темы