Reinforcement Learning Toolbox™ предоставляет приложение, функции и Simulink® блок для тренировка политика с использованием алгоритмов обучения с подкреплением, включая DQN, PPO, SAC и DDPG. Можно использовать эти политики для реализации контроллеров и алгоритмы принятия решений в таких сложных приложениях, как распределение ресурсов, робототехника и автономные системы.
Тулбокс позволяет представлять политики и функции ценности с помощью глубоких нейронных сетей или интерполяционных таблиц и обучать их через взаимодействия со окружениями, смоделированными в MATLAB® или Simulink. Можно оценить одно- или многоагентные алгоритмы обучения с подкреплением, представленные в тулбоксе, или разработать свои собственные. Можно экспериментировать с установками гиперпараметров, контролировать процесс обучения и симулировать обученных агентов либо в интерактивном режиме через приложение, либо программно. Для повышения производительности обучения симуляции могут выполняться параллельно на нескольких центральных процессорах, графических процессорах, компьютерных кластерах и облаке (с Parallel Computing Toolbox™ и MATLAB Parallel Server™).
Через формат модели ONNX™ существующие политики могут быть импортированы из сред глубокого обучения, таких как TensorFlow™ Keras и PyTorch (с Deep Learning Toolbox™). Можно сгенерировать оптимизированные C, C++ и CUDA® код для развертывания обученных политик на микроконтроллерах и графических процессорах. Тулбокс включает справочные примеры, которые помогут вам начать работу.
Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB.
Обучите агента обучения с подкреплением в общем окружении марковского процесса принятия решений.
Обучите контроллер, используя обучение с подкреплением для объекта, смоделированного в Simulink как окружении обучения.
Разработайте и обучите агента DQN для системы тележки с шестом с помощью приложения Reinforcement Learning Designer.
Обучение с подкреплением является направленным на достижение цели вычислительным подходом, в котором компьютер учится выполнять задачу путем взаимодействия с неопределенным динамическим окружением.
Можно обучить агента обучения с подкреплением управлять неизвестным объектом.
Onramp обучения с подкреплением
Это бесплатное четырехчасовое руководство обеспечивает интерактивное введение в обучение с подкреплением.