Чтобы изучить оптимальную политику, агент обучения с подкреплением взаимодействует со средой посредством повторного эмпирического процесса. Во время обучения агент настраивает параметры своего представления политики, чтобы максимизировать долгосрочное вознаграждение. Пакет Reinforcement Learning Toolbox™ обеспечивает функции для учебных агентов и проверки учебных результатов посредством симуляции. Для получения дополнительной информации смотрите, Обучают Агентов Обучения с подкреплением.
Reinforcement Learning Designer | Спроектируйте, обучите и симулируйте агентов обучения с подкреплением |
train | Обучите агентов обучения с подкреплением в заданной среде |
rlTrainingOptions | Опции для учебных агентов обучения с подкреплением |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
rlSimulationOptions | Опции для симуляции агента обучения с подкреплением в среде |
inspectTrainingResult | Постройте учебную информацию от предыдущего сеанса обучения |
RL Agent | Агент обучения с подкреплением |
Настройте агентов обучения с подкреплением
Найдите оптимальную политику по образованию вашим агентом в заданной среде.
Обучите агента обучения с подкреплением в основном мире сетки
Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB®.
Настройте агента обучения с подкреплением в среде MDP
Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.
Создайте среду Simulink и Обучите Агента
Обучите диспетчера, использующего обучение с подкреплением с объектом, смоделированным в Simulink® как учебная среда.
Спроектируйте и обучите агента Используя Reinforcement Learning Designer
Спроектируйте и обучите агента DQN системе тележки с шестом с помощью приложения Reinforcement Learning Designer.
Задайте опции симуляции в Reinforcement Learning Designer
В интерактивном режиме задайте опции для симуляции агентов обучения с подкреплением.
Задайте опции обучения в Reinforcement Learning Designer
В интерактивном режиме задайте опции для учебных агентов обучения с подкреплением.
Обучите агентов Используя параллельные вычисления и графические процессоры
Ускорьте обучение агента рабочими параллельными симуляциями на нескольких ядрах, графических процессорах, кластерах или ресурсах облака.
Обучите агента AC балансировать систему тележки с шестом Используя параллельные вычисления
Обучите агента критика агента с помощью асинхронных параллельных вычислений.
Обучайтесь агент DQN для хранения маршрута помогают Используя параллельные вычисления
Обучите агента обучения с подкреплением автоматизированному ведущему приложению с помощью параллельных вычислений.
Обучите агента DDPG управлять двойной системой интегратора
Обучите глубокого детерминированного агента градиента политики управлять динамической системой второго порядка, смоделированной в MATLAB.
Обучите агента PG с базовой линией управлять двойной системой интегратора
Обучите градиент политики с базовой линией управлять двойной системой интегратора, смоделированной в MATLAB.
Обучите агента DQN балансировать систему тележки с шестом
Обучите глубокого агента Q-образовательной-сети балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента PG балансировать систему тележки с шестом
Обучите агента градиента политики балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента AC балансировать систему тележки с шестом
Обучите агента критика агента балансировать систему тележки с шестом, смоделированную в MATLAB.
Обучите агента DDPG к Swing и маятнику баланса с наблюдением изображений
Обучите агента обучения с подкреплением с помощью основанного на изображении сигнала наблюдения.
Создайте агента Используя Deep Network Designer и обучайтесь Используя наблюдения изображений
Создайте агента обучения с подкреплением с помощью приложения Deep Network Designer от Deep Learning Toolbox™.
Обучите агента DQN к Swing и маятнику баланса
Обучите Глубокого агента Q-сети балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса
Обучите глубокого детерминированного агента градиента политики балансировать маятник, смоделированный в Simulink.
Обучите агента DDPG к Swing и маятнику баланса с сигналом шины
Обучите агента обучения с подкреплением балансировать модель Simulink маятника, которая содержит наблюдения в сигнале шины.
Обучите агента DDPG к Swing и системе тележки с шестом баланса
Обучите глубокого детерминированного агента градиента политики качаться и балансировать систему тележки с шестом, смоделированную в Simscape™ Multibody™.
Обучите несколько агентов выполнять совместную задачу
Обучите двух агентов PPO совместно перемещать объект.
Обучите несколько агентов покрытию области
Обучите трех агентов PPO исследовать мировую сеткой среду совместно-конкурентоспособным способом.
Обучите несколько агентов управлению следованием траектории
Обучите DQN, и агент DDPG, чтобы совместно выполнить адаптивный круиз-контроль и хранение маршрута помогает следовать за путем.
Сгенерируйте премиальную функцию от прогнозирующего диспетчера модели для сервопривода
Сгенерируйте премиальную функцию от диспетчера MPC, применился к сервоприводу.
Сгенерируйте премиальную функцию от блока Model Verification для системы бака с водой
Сгенерируйте премиальную функцию от блока верификации модели, применился к системе бака с водой.
Подражайте контроллер MPC для хранения маршрута помогают
Обучите глубокую нейронную сеть подражать, поведение прогнозирующего контроллера модели в рамках хранения маршрута помогают системе.
Подражайте нелинейному контроллеру MPC для полета роботом
Обучите глубокую нейронную сеть подражать поведению нелинейного прогнозирующего контроллера модели для летающего робота.
Обучите агента DDPG с предварительно обученной сетью агента
Обучите агента обучения с подкреплением с помощью сети агента, которая была ранее обучена с помощью контролируемого изучения.
Обучите пользовательского агента LQR
Обучите пользовательского агента LQR.
Обучите политику обучения с подкреплением Используя пользовательский учебный цикл
Обучите политику обучения с подкреплением с помощью собственного алгоритма настройки.
Создайте агента для пользовательского алгоритма обучения с подкреплением
Создайте агента для пользовательского алгоритма обучения с подкреплением.