Настройте агентов обучения с подкреплением

Если вы создали среду и агента обучения с подкреплением, можно обучить агента в среде с помощью train функция. Чтобы сконфигурировать ваше обучение, используйте rlTrainingOptions функция. Например, создайте набор опции обучения opt, и обучите агента agent в среде env.

opt = rlTrainingOptions(...
    'MaxEpisodes',1000,...
    'MaxStepsPerEpisode',1000,...
    'StopTrainingCriteria',"AverageReward",...
    'StopTrainingValue',480);
trainStats = train(agent,env,opt);

Для получения дополнительной информации о создании:

Агенты, смотрите Агентов Обучения с подкреплением
Среды, смотрите, Создают Среды MATLAB для Обучения с подкреплением и Создают окружения Simulink для Обучения с подкреплением

train обновляет агента, в то время как обучение прогрессирует. Чтобы сохранить исходные параметры агента для дальнейшего использования, сохраните агента в MAT-файл.

save("initialAgent.mat","agent")

Обучение завершает работу автоматически, когда условия задали в StopTrainingCriteria и StopTrainingValue из вашего rlTrainingOptions объекту удовлетворяют. Чтобы вручную отключить происходящее обучение, введите ctrl-C или в менеджере по Эпизоду Обучения с подкреплением нажмите Stop Training. Поскольку train обновляет агента в каждом эпизоде, можно возобновить обучение путем вызова train(agent,env,trainOpts) снова, не теряя обученные параметры, изученные во время первого вызова train.

Учебный алгоритм

В общем случае обучение выполняет выполняющие итеративные шаги:

Инициализируйте агента.
Для каждого эпизода:
1. Сбросьте среду.
2. Получите начальное наблюдение s ₀ средой.
3. Вычислите начальное действие a ₀ = μ (s ₀), где μ (s) является текущей политикой.
4. Установите текущее действие на начальное действие (a a0) и установите текущее наблюдение на начальное наблюдение (s s0).
5. В то время как эпизод не закончен или отключен:
  1. Шаг среда с действием a, чтобы получить следующее наблюдение s' и вознаграждение r.
  2. Извлеките уроки из набора опыта (s, a, r, s').
  3. Вычислите следующее действие a' = μ (s').
  4. Обновите текущее действие со следующим действием (a ←a') и обновите текущее наблюдение со следующим наблюдением (s ←s').
  5. Повредитесь, если условия завершения эпизода, заданные в среде, соблюдают.
Если учебное условие завершения соблюдают, оконечное обучение. В противном случае начните следующий эпизод.

Специфические особенности того, как программное обеспечение выполняет эти шаги, зависят от настройки агента и среды. Например, сброс среды в начале каждого эпизода может включать значения начального состояния рандомизации, если вы конфигурируете свою среду, чтобы сделать так. Для получения дополнительной информации об агентах и их учебных алгоритмах, смотрите Агентов Обучения с подкреплением.

Менеджер по эпизоду

По умолчанию, вызов train функция открывает менеджера по Эпизоду Обучения с подкреплением, который позволяет вам визуализировать прогресс обучения. Менеджер по Эпизоду график показывает вознаграждение за каждый эпизод (EpisodeReward), рабочее среднее премиальное значение (AverageReward). Кроме того, для агентов, которые имеют критиков, график показывает оценку критиков обесцененного долгосрочного вознаграждения в начале каждого эпизода (EpisodeQ0). Менеджер по Эпизоду также отображает различный эпизод и учебную статистику. Этот эпизод и учебная информация также возвращены train функция.

Для агентов с критиком Episode Q0 является оценкой обесцененного долгосрочного вознаграждения в начале каждого эпизода, учитывая начальное наблюдение за средой. В то время как обучение прогрессирует, Episode Q0 должен приблизиться к истинному обесцененному долгосрочному вознаграждению, если критик хорошо спроектирован, как показано в предыдущей фигуре.

Чтобы выключить менеджера по Эпизоду Обучения с подкреплением, установите Plots опция rlTrainingOptions к "none".

Сохраните агентов кандидата

Во время обучения можно сохранить агентов кандидата, которые удовлетворяют условиям, которые вы задаете в SaveAgentCriteria и SaveAgentValue из вашего rlTrainingOptions объект. Например, можно сохранить любого агента, вознаграждение эпизода которого превышает определенное значение, даже если полному условию для завершения обучения еще не удовлетворяют. Например, чтобы сохранить агентов, когда вознаграждение эпизода больше 100Использование:

opt = rlTrainingOptions('SaveAgentCriteria',"EpisodeReward",'SaveAgentValue',100');

train хранит сохраненных агентов в MAT-файле в папке, вы задаете использование SaveAgentDirectory опция rlTrainingOptions. Сохраненные агенты могут быть полезными, например, чтобы позволить вам тестировать агентов кандидата, сгенерированных во время продолжительного учебного процесса. Для получения дополнительной информации о сохранении критериев и сохранении местоположения, смотрите rlTrainingOptions.

После того, как обучение завершено, можно избавить обученного агента финала от рабочей области MATLAB^® с помощью save функция. Например, сохраните агента myAgent к файлу finalAgent.mat в текущей рабочей директории.

save(opt.SaveAgentDirectory + "/finalAgent.mat",'agent')

По умолчанию, когда DDPG и агенты DQN сохранены, буферные данные об опыте не сохранены. Если вы планируете далее обучить своего сохраненного агента, можно запустить обучение с буфера предыдущего опыта как начальная точка. В этом случае установите SaveExperienceBufferWithAgent опция агента к true. Для некоторых агентов, таких как те с большими буферами опыта и основанными на изображении наблюдениями, память, требуемая для сохранения их буфера опыта, является большой. В этих случаях необходимо гарантировать, что существует достаточно памяти, доступной для сохраненных агентов.

Параллельные вычисления

Можно ускорить обучение агента путем хождения параллельно под учебные симуляции. Если вы имеете:

Программное обеспечение Parallel Computing Toolbox™, можно идти параллельно симуляции на многоядерных компьютерах
Параллель MATLAB Server™software, можно идти параллельно симуляции на ресурсах облака или компьютерных кластерах

Когда обучение с параллельными вычислениями, клиент хоста отправляет копии агента и среды каждому параллельному рабочему. Каждый рабочий симулирует агента в среде и передает их данные моделирования обратно в хост. Агент хоста извлекает уроки из данных, отправленных рабочими, и передает обновленные параметры политики обратно рабочим.

Создать параллельный пул N рабочие, введите:

pool = parpool(N);

Если вы не создаете параллельный пул с помощью parpool, train функция автоматически создает тот с помощью параллельных настроек пула по умолчанию. Для получения дополнительной информации об определении этих настроек смотрите, Задают Ваши Параллельные Настройки (Parallel Computing Toolbox).

Для агентов вне политики, таких как DDPG и DQN, не используют все ваши ядра для параллельного обучения. Например, если ваш центральный процессор имеет шесть ядер, обучайтесь с четырьмя рабочими. Выполнение так предоставляет больше ресурсов клиенту хоста, чтобы вычислить градиенты на основе событий, переданных обратно от рабочих. Ограничение количества рабочих не необходимо для агентов на политике, таково как PG и AC, когда градиенты вычисляются на рабочих.

Для получения дополнительной информации о конфигурировании вашего обучения использовать параллельные вычисления, смотрите UseParallel и ParallelizationOptions в rlTrainingOptions.

Чтобы извлечь выгоду из параллельных вычислений, вычислительная стоимость для симуляции среды должна быть относительно дорогой по сравнению с оптимизацией параметров при передаче событий обратно в хост. Если симуляция среды не является достаточно дорогой, рабочие, неактивные при ожидании хоста, чтобы изучить и передать обновленные параметры обратно.

При передаче событий обратно от рабочих можно повысить демонстрационную эффективность, когда отношение R = (сложность шага среды) / (сложность изучения) является большим. Если среда быстра, чтобы симулировать (R мал), вы вряд ли извлечете любую пользу из основанного на опыте распараллеливания. Если среда будет дорогой, чтобы симулировать, но также дорого учиться (например, если мини-пакетный размер будет большим), затем, то вы также вряд ли повысите демонстрационную эффективность. Однако в этом случае, для агентов вне политики, можно уменьшать мини-пакетный размер, чтобы сделать R больше, который повышает демонстрационную эффективность.

Для примера, который обучает агента с помощью параллельных вычислений в:

Ускорение графического процессора

При использовании функции глубокой нейронной сети approximators для вашего агента или представлений критика, можно ускорить обучение путем выполнения операций представления на графическом процессоре, а не центральном процессоре. Для этого установите UseDevice опция к "GPU".

opt = rlRepresentationOptions('UseDevice',"gpu");

Размер любого повышения производительности зависит от вашего определенного приложения и конфигурации сети.

Подтвердите обученную политику

Чтобы подтвердить вашего обученного агента, можно симулировать агента в учебной среде с помощью sim функция. Чтобы конфигурировать моделирование, используйте rlSimulationOptions.

При проверке агента рассмотрите проверку, как агент обрабатывает:

Изменения в начальных условиях симуляции. Чтобы изменить начальные условия модели, измените функцию сброса для среды. Например, сбросьте функции, см.:
Несоответствия между обучением и динамикой среды симуляции. Для этого создайте тестовые среды таким же образом, что вы создали учебную среду, изменив поведение среды.

Как с параллельным обучением, если у вас есть программное обеспечение Parallel Computing Toolbox, можно запустить несколько параллельных симуляций на многоядерных компьютерах. Если у вас есть программное обеспечение MATLAB Parallel Server, можно запустить несколько параллельных симуляций на ресурсах облака или компьютерных кластерах. Для получения дополнительной информации о конфигурировании вашего моделирования, чтобы использовать параллельные вычисления, смотрите UseParallel и ParallelizationOptions в rlSimulationOptions.

Визуализация среды

Если ваша учебная среда реализует plot метод, можно визуализировать поведение среды во время обучения и симуляции. Если вы вызываете plot(env) перед обучением или симуляцией, где env ваш объект среды, затем обновления визуализации во время обучения позволить вам визуализировать прогресс каждого эпизода или симуляции.

Визуализация среды не поддержана когда обучение или симуляция вашего агента с помощью параллельных вычислений.

Для пользовательских сред необходимо реализовать собственный plot метод. Для получения дополнительной информации о создании пользовательских сред с функциями построения графика смотрите, Создают Пользовательскую Среду MATLAB из Шаблона.

Смотрите также

train

Документация