Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.
Reinforcement Learning Designer | Спроектируйте, обучите и симулируйте агентов обучения с подкреплением |
train | Обучите агентов обучения с подкреплением в заданной среде |
rlTrainingOptions | Опции для учебных агентов обучения с подкреплением |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
rlSimulationOptions | Опции для симуляции агента обучения с подкреплением в среде |
inspectTrainingResult | Постройте учебную информацию от предыдущего сеанса обучения |
RL Agent | Агент обучения с подкреплением |
Настройте агентов обучения с подкреплением
Найдите оптимальную политику по образованию вашим агентом в заданной среде.
Обучите агента обучения с подкреплением в основном мире сетки
Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.
Настройте агента обучения с подкреплением в среде MDP
Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.
Создайте среду Simulink и Обучите Агента
Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.
Спроектируйте и обучите агента Используя Reinforcement Learning Designer
Спроектируйте и обучите агента DQN системе тележки с шестом с помощью приложения Reinforcement Learning Designer.
Задайте опции симуляции в Reinforcement Learning Designer
В интерактивном режиме задайте опции для симуляции агентов обучения с подкреплением.
Задайте опции обучения в Reinforcement Learning Designer
В интерактивном режиме задайте опции для учебных агентов обучения с подкреплением.
Обучите агентов Используя параллельные вычисления и графические процессоры
Ускорьте обучение агента рабочими параллельными симуляциями на нескольких ядрах, графических процессорах, кластерах или ресурсах облака.
Обучите агента AC балансировать систему тележки с шестом Используя параллельные вычисления
Обучите агента критика агента с помощью асинхронных параллельных вычислений.
Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления
Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.
Обучите агента DDPG управлять двойной системой интегратора
Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.
Обучите агента PG с базовой линией управлять двойной системой интегратора
Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.
Обучите агента DQN балансировать систему тележки с шестом
Обучите глубокого агента Q-образовательной-сети балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента PG балансировать систему тележки с шестом
Обучите агента градиента политики балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента AC балансировать систему тележки с шестом
Обучите агента критика агента балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений
Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.
Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений
Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.
Обучите агента DQN к Swing и маятнику баланса
Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса
Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса с сигналом шины
Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.
Обучите агента DDPG к Swing и системе тележки с шестом баланса
Обучите глубокого детерминированного агента градиента политики качаться и балансировать систему тележки с шестом, смоделированную в Simscape™ Multibody™.
Обучите несколько агентов выполнять совместную задачу
Обучите двух агентов PPO совместно перемещать объект.
Обучите несколько агентов покрытию области
Обучите трех агентов PPO исследовать мировую сеткой среду совместно-конкурентоспособным способом.
Обучите несколько агентов управлению следованием траектории
Обучите DQN, и агент DDPG, чтобы совместно выполнить адаптивный круиз-контроль и хранение маршрута помогает следовать за путем.
Подражайте контроллер MPC для хранения маршрута помогают
Обучите глубокую нейронную сеть подражать поведению прогнозирующего контроллера модели.
Подражайте нелинейному контроллеру MPC для полета роботом
Обучите глубокую нейронную сеть подражать поведению нелинейного прогнозирующего контроллера модели.
Обучите агента DDPG с предварительно обученной сетью агента
Обучите агента обучения с подкреплением с помощью сети агента, которая была ранее обучена с помощью контролируемого изучения.
Обучите пользовательского агента LQR
Обучите пользовательского агента LQR.
Обучите политику обучения с подкреплением Используя пользовательский учебный цикл
Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.
Создайте агента для пользовательского алгоритма обучения с подкреплением
Создайте агента для пользовательского алгоритма обучения с подкреплением.