Начало работы с Reinforcement Learning Toolbox

Разработайте и обучите политики с помощью изучения укрепления

Reinforcement Learning Toolbox™ обеспечивает функции и блоки для учебных политик с помощью укрепления, изучая алгоритмы включая DQN, A2C и DDPG. Можно использовать эти политики реализовать контроллеры и алгоритмы принятия решений для сложных систем, таких как роботы и автономные системы. Можно проводить политику с помощью глубоких нейронных сетей, полиномов или интерполяционных таблиц.

Тулбокс позволяет вам обучить политики, позволяя им взаимодействовать со средами, представленными моделями Simulink^® или MATLAB^®. Можно оценить алгоритмы, эксперимент с гиперустановками параметров, и контролировать учебный прогресс. Чтобы улучшать учебную производительность, можно запустить симуляции параллельно на облаке, компьютерных кластерах и графических процессорах (с Parallel Computing Toolbox™ и MATLAB Parallel Server™).

Через формат модели ONNX™ существующие политики могут быть импортированы из сред глубокого обучения, таких как TensorFlow™ Keras и PyTorch (с Deep Learning Toolbox™). Можно сгенерировать оптимизированный C, C++ и код CUDA, чтобы развернуть обученные политики по микроконтроллерам и графическим процессорам.

Тулбокс включает справочные примеры для использования укрепления, учащегося разработать контроллеры для робототехники, и автоматизировал ведущие приложения.

Примеры

Обучите агент изучения укрепления в основном мире сетки

Обучите Q-изучение и агенты SARSA решать мир сетки в MATLAB.
Обучите агент изучения укрепления в среде MDP

Обучите агент изучения укрепления в типичной среде процесса принятия решений Маркова.
Создайте агент окружения Simulink и Train

Обучите диспетчера, использующего укрепление, учащееся с объектом, смоделированным в Simulink как учебная среда.

Об изучении укрепления

Что изучает укрепление?

Укрепление, учащееся, является направленным на цель вычислительным подходом, где компьютер учится выполнять задачу путем взаимодействия с неопределенной динамической средой.
Укрепление, учащееся для приложений систем управления

Можно обучить агент изучения укрепления управлять неизвестным объектом.

Документация Reinforcement Learning Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.