Чтобы вести процесс обучения, обучение с подкреплением использует скалярный сигнал вознаграждения, сгенерированный средой. Этот сигнал измеряет уровень агента относительно целей задачи. Другими словами, для данного наблюдения (состояние), вознаграждение измеряется, как хороший это должно принять конкретные меры. Во время обучения агент обновляет свою политику на основе вознаграждений, полученных для различных комбинаций акта государственной власти. Для получения дополнительной информации о различных типах агентов и как они используют сигнал вознаграждения во время обучения, смотрите Агентов Обучения с подкреплением.
В общем случае вы предоставляете положительное вознаграждение, чтобы поощрить определенные действия агента и отрицательное вознаграждение (штраф) препятствовать другим действиям. Хорошо спроектированный сигнал вознаграждения ведет агента, чтобы максимизировать ожидание долгосрочного вознаграждения. То, что составляет хорошо спроектированное вознаграждение, зависит от вашего приложения и целей агента.
Например, когда агент должен выполнить задачу максимально долго, общая стратегия состоит в том, чтобы предоставить меньшее положительное вознаграждение за каждый временной шаг, что агент успешно выполняет задачу и большой штраф, когда агент перестал работать. Этот подход поощряет более длинные эпизоды тренировки в то время как в большой степени обескураживающие эпизоды тот сбой. Для примера, который использует этот подход, смотрите, Обучают Агента DQN Балансировать полюсную Корзиной Систему.
Если ваша премиальная функция включает несколько сигналов, таких как положение, скорость и усилие по управлению, важно рассмотреть относительные размеры сигналов и масштабировать их вклады в сигнал вознаграждения соответственно.
Можно задать или непрерывные или дискретные сигналы вознаграждения. В любом случае для сигнала вознаграждения важно предоставить богатую информацию, когда сигналы действия и наблюдения изменяются.
Непрерывная премиальная функция варьируется постоянно с изменениями в наблюдениях среды и действиях. В общем случае непрерывные сигналы вознаграждения улучшают сходимость во время обучения и могут привести к более простым сетевым структурам.
Примером непрерывного вознаграждения является функция стоимости Квадратичного регулятора (QR), где долгосрочное вознаграждение может быть выражено как:
Где Qτ, Q, R и N являются матрицами веса (Qτ является терминальной матрицей веса, примененной только в конце эпизода если применимо). Кроме того, s является вектором наблюдения, a является вектором действия, и τ является терминальной итерацией эпизода. Мгновенное вознаграждение за это:
Эта премиальная структура QR поощряет управлять s, чтобы обнулить с минимальным усилием по действию. Основанная на QR премиальная структура является хорошим вознаграждением, чтобы выбрать для регулирования или стационарных проблем точки, таких как колебание маятника или регулирование положения двойного интегратора. Для учебных примеров, которые используют вознаграждение QR, смотрите, Обучают Агента DQN к Swing и Маятнику Баланса и Обучают Агента DDPG Управлять Двойной Системой Интегратора.
Сглаживайте непрерывные вознаграждения, такие как регулятор QR, хороши для точной настройки параметров и может обеспечить политики, похожие на оптимальные контроллеры (LQR/MPC).
Дискретная премиальная функция варьируется с перерывами с изменениями в наблюдениях среды или действиях. Эти типы сигналов вознаграждения могут сделать сходимость медленнее и могут потребовать более комплексных сетевых структур. Дискретные вознаграждения обычно реализуются как события, которые происходят в среде. Например, агент мог получить положительное вознаграждение, если он превышает некоторое целевое значение или штраф, если он нарушает некоторое ограничение производительности.
В то время как дискретные вознаграждения могут замедлить сходимость, они могут также вести агента к лучшим премиальным областям в пространстве состояний среды. Например, находящееся в области вознаграждение, такое как фиксированное вознаграждение, когда агент около целевого местоположения, может эмулировать ограничения конечного состояния. Кроме того, находящийся в области штраф может поощрить агента избегать определенных областей пространства состояний.
Во многих случаях это выгодно, чтобы обеспечить смешанный сигнал вознаграждения, который имеет комбинацию непрерывных и дискретных премиальных компонентов. Дискретный сигнал вознаграждения может использоваться, чтобы отогнать систему от плохих состояний, и непрерывный сигнал вознаграждения может улучшить сходимость путем обеспечения сглаженного вознаграждения около целевых состояний. Например, в Обучают Агента DDPG Управлять Летающим Роботом, премиальная функция имеет три компонента: r 1, r 2, и r 3.
Здесь:
r 1 является находящимся в области непрерывным вознаграждением, которое применяется только около целевого местоположения робота.
r 2 является дискретным сигналом, который предоставляет большой штраф, когда робот перемещается далекий от целевого местоположения.
r 3 является непрерывным штрафом QR, который касается всех состояний робота.