Настройте агентов обучения с подкреплением

Если вы создали среду и агента обучения с подкреплением, можно обучить агента в среде с помощью train функция. Чтобы сконфигурировать ваше обучение, используйте rlTrainingOptions функция. Например, создайте набор опции обучения opt, и обучите агента agent в среде env.

opt = rlTrainingOptions(...
    'MaxEpisodes',1000,...
    'MaxStepsPerEpisode',1000,...
    'StopTrainingCriteria',"AverageReward",...
    'StopTrainingValue',480);
trainStats = train(agent,env,opt);

Для получения дополнительной информации о создании агентов смотрите Агентов Обучения с подкреплением. Для получения дополнительной информации о создании сред смотрите, Создают Среды Обучения с подкреплением MATLAB и Создают Среды Обучения с подкреплением Simulink.

train обновляет агента, в то время как обучение прогрессирует. Чтобы сохранить исходные параметры агента для дальнейшего использования, сохраните агента в MAT-файл.

save("initialAgent.mat","agent")

Обучение завершает работу автоматически, когда условия вы задаете в StopTrainingCriteria и StopTrainingValue опции вашего rlTrainingOptions объекту удовлетворяют. Чтобы вручную отключить происходящее обучение, введите Ctrl+C или, в менеджере по Эпизоду Обучения с подкреплением, нажмите Stop Training. Поскольку train обновляет агента в каждом эпизоде, можно возобновить обучение путем вызова train(agent,env,trainOpts) снова, не теряя обученные параметры, изученные во время первого вызова train.

Алгоритм обучения

В общем случае обучение выполняет следующие шаги.

Инициализируйте агента.
Для каждого эпизода:
1. Сбросьте среду.
2. Получите начальное наблюдение s ₀ средой.
3. Вычислите начальное действие a ₀ = μ (s ₀), где μ (s) является текущей политикой.
4. Установите текущее действие на начальное действие (a a0) и установите текущее наблюдение на начальное наблюдение (s s0).
5. В то время как эпизод не закончен или закончен, выполните следующие шаги.
  1. Примените действие a к среде и получите следующее наблюдение s' 'and вознаграждение r.
  2. Извлеките уроки из набора опыта (s, a, r, s').
  3. Вычислите следующее действие a' = μ (s').
  4. Обновите текущее действие со следующим действием (a ←a') и обновите текущее наблюдение со следующим наблюдением (s ←s').
  5. Закончите эпизод, если условия завершения, заданные в среде, соблюдают.
Если учебное условие завершения соблюдают, оконечное обучение. В противном случае начните следующий эпизод.

Специфические особенности того, как программное обеспечение выполняет эти шаги, зависят от настройки агента и среды. Например, сброс среды в начале каждого эпизода может включать значения начального состояния рандомизации, если вы конфигурируете свою среду, чтобы сделать так. Для получения дополнительной информации об агентах и их алгоритмах настройки, смотрите Агентов Обучения с подкреплением. Чтобы использовать параллельную обработку и графические процессоры, чтобы ускорить обучение, смотрите, Обучают Агентов Используя Параллельные вычисления и графические процессоры.

Менеджер по эпизоду

По умолчанию, вызов train функция открывает менеджера по Эпизоду Обучения с подкреплением, который позволяет вам визуализировать процесс обучения. Менеджер по Эпизоду график показывает вознаграждение за каждый эпизод (EpisodeReward) и рабочее среднее премиальное значение (AverageReward). Кроме того, для агентов, которые имеют критиков, график показывает оценку критика обесцененного долгосрочного вознаграждения в начале каждого эпизода (EpisodeQ0). Менеджер по Эпизоду также отображает различный эпизод и учебную статистику. Можно также использовать train функционируйте, чтобы возвратить эпизод и учебную информацию.

Для агентов с критиком Episode Q0 является оценкой обесцененного долгосрочного вознаграждения в начале каждого эпизода, учитывая начальное наблюдение за средой. В то время как обучение прогрессирует, если критик хорошо спроектирован. Episode Q0 приближается к истинному обесцененному долгосрочному вознаграждению, как показано на предыдущем рисунке.

Чтобы выключить менеджера по Эпизоду Обучения с подкреплением, установите Plots опция rlTrainingOptions к "none".

Сохраните агентов кандидата

Во время обучения можно сохранить агентов кандидата, которые удовлетворяют условиям, которые вы задаете в SaveAgentCriteria и SaveAgentValue опции вашего rlTrainingOptions объект. Например, можно сохранить любого агента, вознаграждение эпизода которого превышает определенное значение, даже если полному условию для завершения обучения еще не удовлетворяют. Например, сохраните агентов, когда вознаграждение эпизода будет больше 100.

opt = rlTrainingOptions('SaveAgentCriteria',"EpisodeReward",'SaveAgentValue',100');

train хранит сохраненных агентов в MAT-файле в папке, вы задаете использование SaveAgentDirectory опция rlTrainingOptions. Сохраненные агенты могут быть полезными, например, чтобы протестировать агентов кандидата, сгенерированных во время продолжительного учебного процесса. Для получения дополнительной информации о сохранении критериев и сохранении местоположения, смотрите rlTrainingOptions.

После того, как обучение завершено, можно избавить обученного агента финала от MATLAB^® рабочая область с помощью save функция. Например, сохраните агента myAgent к файлу finalAgent.mat в текущей рабочей директории.

save(opt.SaveAgentDirectory + "/finalAgent.mat",'agent')

По умолчанию, когда DDPG и агенты DQN сохранены, буферные данные об опыте не сохранены. Если вы планируете далее обучить своего сохраненного агента, можно начать обучение с буфера предыдущего опыта как начальная точка. В этом случае установите SaveExperienceBufferWithAgent опция к true. Для некоторых агентов, таких как те с большими буферами опыта и основанными на изображении наблюдениями, память, требуемая для сохранения буфера опыта, является большой. В этих случаях необходимо гарантировать, что достаточно памяти доступно для сохраненных агентов.

Подтвердите обученную политику

Чтобы подтвердить вашего обученного агента, можно симулировать агента в учебной среде с помощью sim функция. Чтобы конфигурировать моделирование, использовать rlSimulationOptions.

При проверке агента рассмотрите проверку, как агент обрабатывает следующее:

Изменения в начальных условиях симуляции — Чтобы изменить начальные условия модели, измените функцию сброса для среды. Например, сбросьте функции, смотрите, Создают Среду MATLAB Используя Пользовательские Функции, Создают Пользовательскую Среду MATLAB из Шаблона и Создают Среды Обучения с подкреплением Simulink.
Несоответствия между обучением и динамикой среды симуляции — Чтобы проверять такие несоответствия, создайте тестовые среды таким же образом, что вы создали учебную среду, изменив поведение среды.

Как с параллельным обучением, если у вас есть программное обеспечение Parallel Computing Toolbox™, можно запустить несколько параллельных симуляций на многоядерных компьютерах. Если у вас есть программное обеспечение MATLAB Parallel Server™, можно запустить несколько параллельных симуляций на ресурсах облака или компьютерных кластерах. Для получения дополнительной информации о конфигурировании вашего моделирования, чтобы использовать параллельные вычисления, смотрите UseParallel и ParallelizationOptions \in rlSimulationOptions.

Визуализация среды

Если ваша учебная среда реализует plot метод, можно визуализировать поведение среды во время обучения и симуляции. Если вы вызываете plot(env) перед обучением или симуляцией, где env ваш объект среды, затем обновления визуализации во время обучения позволить вам визуализировать прогресс каждого эпизода или симуляции.

Визуализация среды не поддерживается когда обучение или симуляция вашего агента с помощью параллельных вычислений.

Для пользовательских сред необходимо реализовать собственное plot метод. Для получения дополнительной информации о создании пользовательские среды с a plot функционируйте, смотрите, Создают Пользовательскую Среду MATLAB из Шаблона.

Смотрите также

train

Документация Reinforcement Learning Toolbox

Поддержка

Сообщество Экспонента

Документация