Для изучения оптимальной политики агент обучения по усилению взаимодействует с окружающей средой посредством многократного процесса проб и ошибок. Во время обучения агент настраивает параметры своего политического представления, чтобы максимизировать долгосрочное вознаграждение. Программное обеспечение Enharmination Learning Toolbox™ предоставляет функции для обучающих агентов и проверки результатов обучения с помощью моделирования. Дополнительные сведения см. в разделе Обучение агентов обучения усилению.
| Дизайнер обучения по усилению | Проектирование, обучение и моделирование агентов обучения усилению |
train | Подготовка обучающих агентов по усилению в определенной среде |
rlTrainingOptions | Варианты обучения агентов по обучению |
sim | Моделирование обученных агентов по обучению подкреплению в определенной среде |
rlSimulationOptions | Варианты моделирования агента обучения усилению в среде |
inspectTrainingResult | Постройте график обучающей информации из предыдущего учебного занятия |
| Агент RL | Усиливающий обучающий агент |
Обучение агентов по обучению усилению
Найдите оптимальную политику, обучая агента в указанной среде.
Обучающий агент по повышению квалификации в базовом сетевом мире
Обучение агентов Q-learning и SARSA для решения грид-мира в MATLAB ®.
Обучающий агент по усилению обучения в среде MDP
Подготовка обучающего агента по усилению в общей среде процесса принятия решений Маркова.
Создание среды Simulink и агента подготовки
Обучение контроллера с использованием обучения усилению с помощью установки, смоделированной в Simulink ® в качестве учебной среды.
Проектирование и обучение агента с помощью конструктора по обучению усилению
Разработка и обучение агента DQN для системы тележек с помощью приложения «Дизайнер обучения армированию».
Задание параметров моделирования в Проектировщике обучения по армированию
В интерактивном режиме задайте параметры для моделирования агентов обучения усилению.
Определение параметров обучения в Проектировщике обучения по усилению
В интерактивном режиме укажите варианты обучения агентов обучения усилению.
Обучение агентов с помощью параллельных вычислений и графических процессоров
Ускорение обучения агентов путем параллельного моделирования нескольких ядер, графических процессоров, кластеров или облачных ресурсов.
Обучение агента переменного тока балансированию системы Cart-Pole с помощью параллельных вычислений
Обучение актера-критика с помощью асинхронных параллельных вычислений.
Обучение агента обучения усилению для автоматизированного приложения вождения с использованием параллельных вычислений.
Подготовка агента DDPG к управлению системой двойного интегратора
Обучение агента градиента глубокой детерминированной политики управлению динамической системой второго порядка, смоделированной в MATLAB.
Подготовка агента PG с базовой системой для управления системой двойного интегратора
Подготовка градиента политики с базовой линией для управления системой двойного интегратора, смоделированной в MATLAB.
Подготовка агента DQN к балансировке системы Cart-Pole
Обучите сетевого агента глубокого Q-обучения балансировать систему тележек, смоделированную в MATLAB.
Подготовка агента PG к балансировке системы Cart-Pole
Обучите агент градиента политики балансировать систему тележек, смоделированную в MATLAB.
Подготовка агента переменного тока к балансированию системы Cart-Pole
Обучите актера-критика балансировать систему тележек, смоделированную в MATLAB.
Обучить агента DDPG качаться вверх и балансировать маятник с наблюдением изображения
Обучение агента обучения усилению с использованием сигнала наблюдения на основе изображения.
Создание агента с помощью Deep Network Designer и обучение с помощью наблюдений за изображениями
Создайте агент обучения усиления с помощью приложения Deep Network Designer из Toolbox™ Deep Learning.
Подготовка агента DQN к качанию вверх и балансировке маятника
Обучите агента Deep Q-network балансировать маятник, смоделированный в Simulink.
Подготовка агента DDPG к качанию вверх и балансировке маятника
Тренируйте агент градиента глубокой детерминированной политики, чтобы сбалансировать маятник, смоделированный в Simulink.
Подготовка агента DDPG к качанию вверх и балансировке маятника с сигналом шины
Обучите обучающий агент усиления балансировать маятниковую модель Simulink, которая содержит наблюдения в сигнале шины.
Подготовка агента DDPG к подкачке и балансировке системы Cart-Pole
Обучите агента градиента глубокой детерминированной политики качаться вверх и балансировать систему тележек, смоделированную в Simscape™ Multibody™.
Обучение нескольких агентов выполнению совместной задачи
Обучите двух агентов PPO совместному перемещению объекта.
Обучение нескольких агентов для покрытия зоны
Подготовка трех агентов PPO для изучения среды grid-world на основе совместной конкуренции.
Обучение нескольких агентов для управления путем следования
Обучите DQN и агента DDPG совместной работе по адаптивному круиз-контролю и поддержанию полосы движения, чтобы помочь следовать по пути.
Имитация контроллера MPC для помощи по поддержанию полосы движения
Обучить глубокую нейронную сеть имитировать поведение модельного прогностического контроллера.
Имитация нелинейного MPC-контроллера для летающего робота
Обучить глубокую нейронную сеть имитировать поведение прогнозирующего контроллера нелинейной модели.
Подготовка агента DDPG с предварительно обученной сетью акторов
Обучение агента обучения усилению с использованием сети акторов, которая ранее была обучена с использованием контролируемого обучения.
Подготовка пользовательского агента LQR
Обучение пользовательского агента LQR.
Политика обучения по повышению квалификации с использованием индивидуального цикла обучения
Обучайте политику обучения усилению с помощью собственного пользовательского алгоритма обучения.
Создать агент для пользовательского алгоритма обучения усилению
Создайте агент для пользовательского алгоритма обучения усилению.