Начало работы с Reinforcement Learning Toolbox

Разработайте и обучите политики с помощью обучения с подкреплением

Reinforcement Learning Toolbox™ обеспечивает функции и блоки для настройки политик с помощью алгоритмов обучения с подкреплением, включая DQN, A2C и DDPG. Можно использовать эти политики для реализации контроллеров и алгоритмы принятия решений в сложных системах, таких как роботы и автономные системы. Представлять политики можно с помощью глубоких нейронных сетей, полиномов или интерполяционных таблиц.

Тулбокс позволяет вам обучить политики, позволяя им взаимодействовать со средами, представленными моделями Simulink^® или MATLAB^®. Можно оценить алгоритмы, эксперимент с установками гиперпараметров, и контролировать процесс обучения. Чтобы улучшить производительность обучения, можно запустить параллельные симуляции на облаке, компьютерных кластерах и графических процессорах (с Parallel Computing Toolbox™ и MATLAB Parallel Server™).

Через формат модели ONNX™ существующие политики могут быть импортированы из сред глубокого обучения, таких как TensorFlow™ Keras и PyTorch (с Deep Learning Toolbox™). Можно сгенерировать оптимизированный C, C++ и код CUDA, чтобы развернуть обученные политики на микроконтроллерах и графических процессорах.

Тулбокс включает справочные примеры по использованию обучения с подкреплением для разработки контроллеров в робототехнике и беспилотных аппаратах.

Примеры

Обучите агента обучения с подкреплением в основном мире сетки

Обучите агентов Q-обучения и SARSA решать мир сетки в MATLAB.
Настройте агента обучения с подкреплением в среде MDP

Обучите агента обучения с подкреплением в типовой среде марковского процесса принятия решений.
Создайте среду Simulink и Обучите Агента

Обучите контроллер, используя обучение с подкреплением для объекта, смоделированного в Simulink как среде обучения.

Об обучении с подкреплением

Что такое Обучение с Подкреплением?

Обучение с подкреплением является направленным на достижение цели вычислительным подходом, в котором компьютер учится выполнять задачу путем взаимодействия с неопределенной динамической средой.
Обучение с подкреплением для приложений систем управления

Можно обучить агента обучения с подкреплением управлять неизвестным объектом.

Документация Reinforcement Learning Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.