Reinforcement Learning Toolbox

Разработайте и обучите политики с помощью обучения с подкреплением

Reinforcement Learning Toolbox™ предоставляет приложение, функции и блок Simulink^® для тренировки политик с помощью алгоритмов обучения с подкреплением, включая DQN, PPO, SAC и DDPG. Можно использовать эти политики реализовать контроллеры и алгоритмы принятия решений для сложных приложений, таких как распределение ресурсов, робототехника и автономные системы.

Тулбокс позволяет вам представлять политики и функции ценности с помощью глубоких нейронных сетей или интерполяционных таблиц и обучить их через взаимодействия со средами, смоделированными в MATLAB^® или Simulink. Можно оценить сингл - или алгоритмы обучения с подкреплением мультиагента, предоставленные в тулбоксе, или разработать собственное. Можно экспериментировать с установками гиперпараметров, процессом обучения монитора, и симулировать обученных агентов или в интерактивном режиме через приложение или программно. Чтобы улучшить производительность обучения, симуляции могут быть запущены параллельно на нескольких центральных процессорах, графических процессорах, компьютерных кластерах и облаке (с Parallel Computing Toolbox™ и MATLAB Parallel Server™).

Через формат модели ONNX™ существующие политики могут быть импортированы из сред глубокого обучения, таких как TensorFlow™ Keras и PyTorch (с Deep Learning Toolbox™). Можно сгенерировать оптимизированный C, C++ и код CUDA^®, чтобы развернуть обученные политики на микроконтроллерах и графических процессорах. Тулбокс включает справочные примеры, чтобы помочь вам начать.

Запуск

Изучите основы Reinforcement Learning Toolbox

Окружения MATLAB

Моделируйте динамику окружения обучения с подкреплением, используя MATLAB

Окружения Simulink

Моделируйте динамику окружения обучения с подкреплением с помощью моделей Simulink

Агенты

Создайте и сконфигурируйте агентов обучения с подкреплением с помощью общих алгоритмов, таких как SARSA, DQN, DDPG и A2C

Политики и функции ценности

Задайте представления политики и функции значения в виде глубоких нейронных сетей и Q-таблиц

Обучение и валидация

Обучите и симулируйте агентов обучения с подкреплением

Развертывание политики

Генерация кода и развертывание обученных политик

Документация Reinforcement Learning Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.