Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.
train | Обучите агентов обучения с подкреплением в заданной среде |
rlTrainingOptions | Опции для учебных агентов обучения с подкреплением |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
rlSimulationOptions | Опции для симуляции агента обучения с подкреплением в среде |
RL Agent | Агент обучения с подкреплением |
Настройте агентов обучения с подкреплением
Найдите оптимальную политику по образованию вашим агентом в заданной среде.
Обучите агента обучения с подкреплением в основном мире сетки
Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.
Настройте агента обучения с подкреплением в среде MDP
Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.
Создайте среду Simulink и Обучите Агента
Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.
Обучите агента AC балансировать систему тележки с шестом Используя параллельные вычисления
Обучите агента критика агента с помощью асинхронных параллельных вычислений.
Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления
Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.
Обучите агента DDPG управлять двойной системой интегратора
Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.
Обучите агента PG с базовой линией управлять двойной системой интегратора
Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.
Обучите агента DQN балансировать систему тележки с шестом
Обучите глубокого агента Q-образовательной-сети балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента PG балансировать систему тележки с шестом
Обучите агента градиента политики балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента AC балансировать систему тележки с шестом
Обучите агента критика агента балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений
Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.
Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений
Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.
Обучите агента DQN к Swing и маятнику баланса
Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса
Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса с сигналом шины
Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.
Обучите агента DDPG к Swing и системе тележки с шестом баланса
Обучите глубокого детерминированного агента градиента политики качаться и балансировать систему тележки с шестом, смоделированную в Simscape™ Multibody™.
Обучите несколько агентов выполнять совместную задачу
Обучите двух агентов PPO совместно перемещать объект.
Обучите несколько агентов покрытию области
Обучите трех агентов PPO исследовать мировую сеткой среду совместно-конкурентоспособным способом.
Обучите несколько агентов управлению следованием траектории
Обучите DQN, и агент DDPG, чтобы совместно выполнить адаптивный круиз-контроль и хранение маршрута помогает следовать за путем.
Подражайте контроллер MPC для хранения маршрута помогают
Обучите глубокую нейронную сеть подражать поведению прогнозирующего контроллера модели.
Подражайте нелинейному контроллеру MPC для полета роботом
Обучите глубокую нейронную сеть подражать поведению нелинейного прогнозирующего контроллера модели.
Обучите агента DDPG с предварительно обученной сетью агента
Обучите агента обучения с подкреплением с помощью сети агента, которая была ранее обучена с помощью контролируемого изучения.
Обучите пользовательского агента LQR
Обучите пользовательского агента LQR.
Обучите политику обучения с подкреплением Используя пользовательский учебный цикл
Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.
Создайте агента для пользовательского алгоритма обучения с подкреплением
Создайте агента для пользовательского алгоритма обучения с подкреплением.