Чтобы вести процесс обучения, изучение укрепления использует скалярный премиальный сигнал, сгенерированный от среды. Этот сигнал измеряет уровень агента относительно целей задачи. Другими словами, для данного наблюдения (состояние), вознаграждение измеряется, как хороший это должно принять конкретные меры. Во время обучения агент обновляет свою политику на основе вознаграждений, полученных для различных комбинаций акта государственной власти. Для получения дополнительной информации о различных типах агентов и как они используют премиальный сигнал во время обучения, смотрите, что Укрепление Изучает Агенты.
В целом вы предоставляете положительное вознаграждение, чтобы поощрить определенные действия агента и отрицательное вознаграждение (штраф) препятствовать другим действиям. Хорошо разработанный премиальный сигнал ведет агент, чтобы максимизировать ожидание долгосрочного вознаграждения. То, что составляет хорошо разработанное вознаграждение, зависит от вашего приложения и целей агента.
Например, когда агент должен выполнить задачу максимально долго, общая стратегия состоит в том, чтобы предоставить меньшее положительное вознаграждение за каждый временной шаг, что агент успешно выполняет задачу и большой штраф, когда агент перестал работать. Этот подход поощряет более длинные учебные эпизоды в то время как в большой степени обескураживающие эпизоды тот сбой. Для примера, который использует этот подход, смотрите Train Агент DQN, чтобы Сбалансировать полюсную Корзиной Систему.
Если ваша премиальная функция включает несколько сигналов, таких как положение, скорость и усилие по управлению, важно полагать, что относительные размеры сигналов и масштабировать их вклады в вознаграждение сигнализируют соответственно.
Можно задать или непрерывные или дискретные премиальные сигналы. В любом случае это важно для премиального сигнала предоставить богатую информацию, когда действие и наблюдение сигнализируют об изменении.
Непрерывная премиальная функция отличается постоянно с изменениями в наблюдениях среды и действиях. В целом непрерывные премиальные сигналы улучшают сходимость во время обучения и могут привести к более простым сетевым структурам.
Примером непрерывного вознаграждения является функция стоимости Квадратичного регулятора (QR), где долгосрочное вознаграждение может быть выражено как:
Где Qτ, Q, R и N являются матрицами веса (Qτ является терминальной матрицей веса, примененной только в конце эпизода если применимо). Кроме того, s является вектором наблюдения, a является вектором действия, и τ является терминальной итерацией эпизода. Мгновенное вознаграждение за это:
Эта премиальная структура QR поощряет управлять s, чтобы обнулить с минимальным усилием по действию. Основанная на QR премиальная структура является хорошим вознаграждением, чтобы выбрать для регулирования или стационарных проблем точки, таких как колебание маятника или регулирование положения двойного интегратора. Для учебных примеров, которые используют вознаграждение QR, смотрите Train Агент DQN к Swing и Маятнику Баланса и Train Агент DDPG, чтобы Управлять Двойной Системой Интегратора.
Сглаживайте непрерывные вознаграждения, такие как регулятор QR, хороши для точной настройки параметров и может обеспечить политики, подобные оптимальным контроллерам (LQR/MPC).
Дискретная премиальная функция отличается с перерывами с изменениями в наблюдениях среды или действиях. Эти типы премиальных сигналов могут сделать сходимость медленнее и могут потребовать более комплексных сетевых структур. Дискретные вознаграждения обычно реализуются как события, которые происходят в среде. Например, агент мог получить положительное вознаграждение, если он превышает некоторое целевое значение или штраф, если он нарушает некоторое ограничение производительности.
В то время как дискретные вознаграждения могут замедлить сходимость, они могут также вести агент к лучшим премиальным областям в пространстве состояний среды. Например, находящееся в области вознаграждение, такое как фиксированное вознаграждение, когда агент около целевого местоположения, может эмулировать ограничения конечного состояния. Кроме того, находящийся в области штраф может поощрить агент избегать определенных областей пространства состояний.
Во многих случаях это выгодно, чтобы обеспечить смешанный премиальный сигнал, который имеет комбинацию непрерывных и дискретных премиальных компонентов. Дискретный премиальный сигнал может использоваться, чтобы отогнать систему от плохих состояний, и непрерывный премиальный сигнал может улучшить сходимость путем обеспечения сглаженного вознаграждения около целевых состояний. Например, в Train Агент DDPG, чтобы Управлять Летающим Роботом, премиальная функция имеет три компонента: r 1, r 2, и r 3.
Здесь:
r 1 является находящимся в области непрерывным вознаграждением, которое применяется только около целевого местоположения робота.
r 2 является дискретным сигналом, который предоставляет большой штраф, когда робот перемещается далекий от целевого местоположения.
r 3 является непрерывным штрафом QR, который касается всех состояний робота.