exponenta event banner

Определение параметров обучения в Проектировщике обучения по усилению

Чтобы настроить обучение агента в приложении «Дизайнер обучения усиления», укажите параметры обучения на вкладке «Обучение».

Specify training options on the Train tab.

Задать основные параметры

На вкладке «Поезд» можно задать следующие основные параметры обучения.

ВыборОписание
Макс. эпизодыМаксимальное количество эпизодов для обучения агента, указанное как положительное целое число.
Максимальная длина эпизодаМаксимальное количество шагов для выполнения в эпизоде, указанное как положительное целое число.
Критерии остановки

Условие окончания обучения, указанное как одно из следующих значений.

  • AverageSteps - Прекращать обучение, когда среднее количество выполняемых шагов в эпизоде равно или превышает критическое значение, указанное в поле Stopping Value.

  • AverageReward - Прекращайте обучение, когда среднее вознаграждение равняется или превышает критическое значение.

  • EpisodeReward - Прекратить обучение, когда вознаграждение в текущем эпизоде равно или превышает критическое значение.

  • GlobalStepCount - Прекращать обучение, когда общее количество шагов во всех эпизодах (общее количество вызовов агента) равно или превышает критическое значение.

  • EpisodeCount - Прекращать тренировку, когда количество тренировочных эпизодов равно или превышает критическое значение.

Остановка значенияКритическое значение условия завершения обучения в критериях остановки, указанное как скаляр.
Средняя длина окнаДлина окна для усреднения баллов, вознаграждений и количества шагов для агента, когда критерии Остановка (Stopping) или Сохранить (Save) определяют условие усреднения.

Указать дополнительные параметры

Чтобы задать дополнительные параметры обучения, на вкладке «Поезд» нажмите кнопку «Дополнительные параметры».

В диалоговом окне «Дополнительные параметры обучения» можно задать следующие параметры.

ВыборОписание
Сохранить критерии агента

Условие сохранения агентов во время обучения, указанное как одно из следующих значений.

  • none - Не сохранять агентов во время обучения.

  • AverageSteps - Сохранение агента, если среднее число выполняемых шагов в эпизоде равно или превышает критическое значение, указанное в поле Сохранить значение агента.

  • AverageReward - Сохранение агента, если среднее текущее вознаграждение равно или превышает критическое значение.

  • EpisodeReward - Сохранить агента, когда вознаграждение в текущем эпизоде равно или превышает критическое значение.

  • GlobalStepCount - Сохранение агента, если общее количество шагов во всех эпизодах (общее количество вызовов агента) равно или превышает критическое значение.

  • EpisodeCount - Сохранять агента, если количество учебных эпизодов равно или превышает критическое значение.

Сохранить значение агентаКритическое значение условия сохранения агента в критериях сохранения агента, указанное как скаляр или "none".
Сохранить каталог

Папка для сохраненных агентов. Если указано имя, а папка не существует, приложение создаст папку в текущей рабочей папке.

Для интерактивного выбора папки нажмите кнопку Обзор.

Показать подробные выходные данныеВыберите этот параметр для отображения хода обучения в командной строке.
Остановка при ошибкеВыберите этот параметр, чтобы остановить обучение при возникновении ошибки во время эпизода.
График обучения

Параметр для графического отображения хода обучения в приложении, указанный как одно из следующих значений. "training-progress" или "none".

  • training-progress - Показать ход обучения

  • none - Не показывать ход обучения

Укажите параметры параллельного обучения

Чтобы обучить агента с помощью параллельных вычислений, на вкладке Поезд (Train) щелкните. Parallel computing icon.Для обучения агентов, использующих параллельные вычисления, требуется программное обеспечение Parallel Computing Toolbox™. Дополнительные сведения см. в разделе Обучение агентов с помощью параллельных вычислений и графических процессоров.

Чтобы задать параметры параллельного обучения, выберите «Использовать параллельное» > «Параметры параллельного обучения».

Parallel training options dialog box.

В диалоговом окне «Параметры параллельного обучения» можно задать следующие параметры обучения.

ВыборОписание
Режим параллельных вычислений

Режим параллельных вычислений, заданный как одно из следующих значений.

  • sync - Использование parpool для синхронного обучения имеющихся работников. В этом случае работники приостанавливают выполнение до тех пор, пока все работники не закончат работу. Хост обновляет параметры актера и критика на основе результатов от всех работников и отправляет обновленные параметры всем работникам.

  • async - Использование parpool для выполнения асинхронного обучения доступных работников. В этом случае работники отправляют свои данные обратно на хост по завершении и получают обновленные параметры от хоста. Затем рабочие продолжают выполнять свою задачу.

Тип данных от работников

Тип данных, которые работники отправляют на узел, указанный как одно из следующих значений.

  • experiences - Моделирование выполняется работниками, а обучение - хостом. В частности, работники моделируют агента по отношению к окружающей среде и посылают данные опыта (наблюдение, действие, вознаграждение, следующее наблюдение и флаг, указывающий, достигнуто ли состояние терминала) на хост. Для агентов с градиентами хост вычисляет градиенты на основе опыта, обновляет параметры сети и отправляет обновленные параметры работникам, которые могут выполнить новое моделирование в среде.

  • gradients - Как моделирование, так и обучение выполняются работниками. В частности, рабочие моделируют агент в зависимости от среды, вычисляют градиенты на основе опыта и отправляют градиенты на хост. Хост усредняет градиенты, обновляет параметры сети и отправляет обновленные параметры работникам, которые могут выполнить новое моделирование в среде.

Примечание

Для DQN, DDPG, PPO и TD3 необходимо установить для этой опции значение experiences.

Шаги до отправки данных

Количество шагов, после которых работники отправляют данные на хост и получают обновленные параметры, указанные как –1 или положительное целое число. Когда этот параметр –1работник ожидает окончания эпизода, а затем отправляет все данные шага хосту. В противном случае работник ожидает указанного количества шагов перед отправкой данных.

Передача переменных рабочей области работникам

Выберите этот параметр для отправки переменных модели и рабочей области параллельным работникам. При выборе этой опции хост отправляет рабочим переменные, используемые в моделях и определенные в рабочей области MATLAB ®.

Случайное семя для работников

Инициализация рандомизатора для работников, указанная как одно из следующих значений.

  • –1 - назначьте каждому работнику уникальное случайное начальное число. Значением начального числа является идентификатор работника.

  • –2 - Не присваивайте работникам случайное семя.

  • Вектор (Vector) - вручную укажите случайное начальное число для каждого работника. Число элементов в векторе должно соответствовать числу работников.

Файлы для присоединения к параллельному пулуДополнительные файлы для присоединения к параллельному пулу. Укажите имена файлов в текущей рабочей папке с одним именем в каждой строке.
Функция настройки работникаФункция для запуска перед началом обучения, заданная как дескриптор функции, не имеющей входных аргументов. Эта функция выполняется один раз для каждого работника до начала обучения. Запишите эту функцию для выполнения любой обработки, необходимой перед обучением.
Функция очистки работникаФункция для выполнения после окончания обучения, заданная как дескриптор функции, не имеющей входных аргументов. Эту функцию можно записать для очистки рабочей области или выполнения другой обработки после завершения обучения.

На следующем рисунке показан пример конфигурации параллельного обучения для следующих файлов и функций.

  • Файл данных, подключенный к параллельному пулу - workerData.mat

  • Функция настройки работника - mySetup.m

  • Функция очистки работника - myCleanup.m

Parallel training options dialog showing file and function information.

См. также

Связанные темы