Чтобы узнать оптимальную политику, агент обучения с подкреплением взаимодействует со окружением через повторный процесс проб и ошибок. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для настройки агентов и валидации результатов обучения посредством симуляции. Для получения дополнительной информации см. Train агентов обучения с подкреплением».
Reinforcement Learning Designer | Проектируйте, обучайте и симулируйте агентов обучения с подкреплением |
train | Обучите агентов обучения с подкреплением в заданном окружении |
rlTrainingOptions | Опции для настройки агентов обучения с подкреплением |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
rlSimulationOptions | Опции для симуляции агента обучения с подкреплением в окружении |
inspectTrainingResult | Постройте график информации о обучении из предыдущего сеанса обучения |
RL Agent | Агент обучения с подкреплением |
Настройте агентов обучения с подкреплением
Найдите оптимальную политику путем настройки агента в заданном окружении.
Обучите агента обучения с подкреплением в основном мире сетки
Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.
Обучите агента обучения с подкреплением в среде MDP
Обучите агента обучения с подкреплением в общем окружении марковского процесса принятия решений.
Создайте окружение Simulink и Обучите Агента
Обучите контроллер, используя обучение с подкреплением для объекта, смоделированного в Simulink® как окружение обучения.
Проектируйте и обучайте агента, используя Reinforcement Learning Designer
Разработайте и обучите агента DQN для системы тележки с шестом с помощью приложения Reinforcement Learning Designer.
Задайте опции симуляции в Reinforcement Learning Designer
В интерактивном режиме задайте опции для симуляции агентов обучения с подкреплением.
Задайте опции обучения в Reinforcement Learning Designer
Интерактивно задайте опции для настройки агентов обучения с подкреплением.
Обучите агентов, используя параллельные вычисления и графические процессоры
Ускорьте обучение агентов, запустив параллельные симуляции на нескольких ядрах, графических процессорах, кластерах или облачных ресурсах.
Обучите агента актёра-критика с помощью асинхронных параллельных вычислений.
Обучите агента DQN для поддержки маршрута с помощью параллельных вычислений
Обучите агента обучения с подкреплением для беспилотного приложения с помощью параллельных вычислений.
Обучите агента DDPG управлять системой двойного интегратора
Обучите агента глубокого детерминированного градиента политики для управления динамической системой второго порядка, смоделированной в MATLAB.
Обучите агента PG с базовым уровнем для управления системой Double Integrator
Обучите градиент политики с базовой линией, чтобы управлять системой двойного интегратора, смоделированной в MATLAB.
Обучите агента DQN балансировать систему тележки с шестом
Обучите агента глубокой сети Q-обучения для балансировки системы тележки с шестом, смоделированной в MATLAB.
Обучите агента PG балансировке системы тележки с шестом
Обучите агента градиента политики для балансировки системы тележки с шестом, смоделированной в MATLAB.
Обучите агента переменного тока балансировать систему тележки с шестом
Обучите агента актёра-критика балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента DDPG качаться вверх и балансировать маятник с наблюдением изображений
Обучите агента обучения с подкреплением, используя основанный на изображении сигнал наблюдения.
Создайте агента с помощью Deep Network Designer и обучите с использованием наблюдений изображений
Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer из Deep Learning Toolbox™.
Обучите агента DQN качаться вверх и балансировать маятник
Обучите агента глубокой Q-сети для балансировки маятника, смоделированного в Simulink.
Обучите агента DDPG качаться вверх и балансировать маятник
Обучите агента глубокого детерминированного градиента политики, чтобы сбалансировать маятник, смоделированный в Simulink.
Обучите агента DDPG качаться вверх и балансировать маятник с сигналом шины
Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.
Обучите агента DDPG качаться вверх и балансировать систему тележки с шестом
Обучите агента глубокого детерминированного градиента политики для качания вверх и балансировки системы тележки с шестом, смоделированной в Simscape™ Multibody™.
Обучите нескольких агентов выполнять совместную задачу
Обучите двух агентов PPO совместному перемещению объекта.
Обучите нескольких агентов для покрытия области
Обучите трех агентов PPO исследовать окружение в мире сетки на основе совместной конкуренции.
Обучите несколько агентов для пути, следующего за управлением
Обучите DQN и агента DDPG для совместного выполнения адаптивного круиз-контроля и поддержания маршрута для следования по пути.
Имитируйте контроллер MPC для помощи в поддержании маршрута
Обучите глубокую нейронную сеть, чтобы имитировать поведение прогнозирующего контроллера модели.
Имитируйте нелинейный контроллер MPC для летающего робота
Обучите глубокую нейронную сеть, чтобы имитировать поведение нелинейного прогнозирующего контроллера модели.
Обучите агента DDPG предварительно обученной сетью актёра
Обучите агента обучения с подкреплением с помощью сети актёра, которая ранее была обучена с помощью контролируемого обучения.
Обучите пользовательского агента LQR
Обучите пользовательского агента LQR.
Настройте политику обучения с подкреплением с помощью пользовательского цикла обучения
Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.
Создайте агента для пользовательского алгоритма обучения с подкреплением
Создайте агента для пользовательского алгоритма обучения с подкреплением.