Укрепление, учащееся, является направленным на цель вычислительным подходом, где компьютер учится выполнять задачу путем взаимодействия с неизвестной динамической средой. Этот подход изучения позволяет компьютеру сделать ряд решений максимизировать совокупное вознаграждение за задачу без человеческого вмешательства и не будучи явным образом запрограммированным, чтобы достигнуть задачи. Следующая схема показывает общее представление сценария изучения укрепления.
Цель укрепления, учащегося, состоит в том, чтобы обучить агент выполнять задачу в неизвестной среде. Агент получает наблюдения и вознаграждение от среды и отправляет действия в среду. Вознаграждение является мерой того, насколько успешный действие относительно завершения цели задачи.
Агент содержит два компонента: политика и алгоритм изучения.
Политика является отображением, которое выбирает действия на основе наблюдений от среды. Как правило, политика является функцией approximator с настраиваемыми параметрами, такими как глубокая нейронная сеть.
Алгоритм изучения постоянно обновляет параметры политики на основе действия, наблюдений и вознаграждения. Цель алгоритма изучения состоит в том, чтобы найти оптимальную политику, которая максимизирует совокупное вознаграждение, полученное во время задачи.
Другими словами, укрепление, учащееся, относится к агенту, изучая оптимальное поведение через повторные эмпирические взаимодействия со средой без человеческого участия.
Как пример, рассмотрите задачу парковки автомобиля с помощью автоматизированной ведущей системы. Цель этой задачи для компьютера автомобиля (агент), чтобы припарковать автомобиль в правильном положении и ориентации. Для этого диспетчер использует показания от камер, акселерометров, гироскопов, GPS-приемника и лазерного дальномера (наблюдения), чтобы сгенерировать регулирование, торможение и ускоряющие команды (действия). Команды действия отправляются в приводы, которые управляют автомобилем. Получившиеся наблюдения зависят от приводов, датчиков, динамики аппарата, дорожного покрытия, ветра и многого другого меньшего-количества-важных-факторов. Все эти факторы, то есть, все, что не является агентом, составляет среду в изучении укрепления.
Чтобы изучить, как сгенерировать правильные действия от наблюдений, компьютер неоднократно пытается припарковать автомобиль с помощью эмпирического процесса. Чтобы вести процесс обучения, вы обеспечиваете сигнал, который является тем, когда автомобиль успешно достигает желаемого положения и ориентации и нуля в противном случае (вознаграждение). Во время каждого испытания компьютер выбирает действия с помощью отображения (политика), инициализированная с некоторыми значениями по умолчанию. После каждого испытания компьютер обновляет отображение, чтобы максимизировать вознаграждение (изучение алгоритма). Этот процесс продолжается, пока компьютер не изучает оптимальное отображение, которое успешно паркует автомобиль.
Общий рабочий процесс для обучения агент с помощью укрепления, учащегося, включает следующие шаги.
Сформулируйте проблему — Задают задачу для агента, чтобы учиться, включая то, как агент взаимодействует со средой и любыми первичными и вторичными целями, которых должен достигнуть агент.
Создайте Среду — Задают среду, в которой агент действует, включая интерфейс между агентом и средой и динамической моделью среды. Для получения дополнительной информации смотрите, Создают Среды MATLAB для Изучения Укрепления и Создают окружения Simulink для Изучения Укрепления.
Задайте Вознаграждение — Указывают, что вознаграждение сигнализирует, что использование агента, чтобы измерить его уровень против целей задачи и как этот сигнал вычисляется от среды. Для получения дополнительной информации смотрите, Задают Премиальные Сигналы.
Создайте Агент — Создают агент, который включает определение представления политики и конфигурирование алгоритма изучения агента. Для получения дополнительной информации смотрите, Создают политику и Представления Функции Значения и Агенты Изучения Укрепления.
Обучите Агент — Train представление политики агента с помощью заданной среды, вознаграждения и алгоритма изучения агента. Для получения дополнительной информации смотрите, что Укрепление Train Изучает Агенты.
Подтвердите Агент — Оценивают производительность обученного агента путем симуляции агента и среды вместе. Для получения дополнительной информации смотрите, что Укрепление Train Изучает Агенты.
Развернитесь политика — Развертывают обученное использование представления политики, например, сгенерированный код графического процессора. Для получения дополнительной информации смотрите, Развертывают Обученные политики Изучения Укрепления.
Обучение агент с помощью укрепления, учащегося, является итеративным процессом. Решения и результаты на более поздних этапах могут потребовать, чтобы вы возвратились к более ранней стадии в рабочем процессе изучения. Например, если учебный процесс не сходится к оптимальной политике в разумном количестве времени, вам, вероятно, придется обновить любое из следующих прежде, чем переобучить агент:
Учебные настройки
Изучение настройки алгоритма
Представление политики
Вознаградите определение сигнала
Действие и сигналы наблюдения
Динамика среды