Приложение «Дизайнер обучения усиления» поддерживает следующие типы агентов.
Для обучения агента с помощью Arminitation Learning Designer необходимо сначала создать или импортировать среду. Дополнительные сведения см. в разделах Создание сред MATLAB для конструктора обучения по армированию и Создание сред Simulink для конструктора обучения по армированию.
Для создания агента на вкладке «Обучение усилению» в разделе «Агент» нажмите кнопку «Создать».

В диалоговом окне Создание агента укажите следующую информацию.
Имя агента - укажите имя агента.
Среда (Environment) - выберите среду, которая была ранее создана или импортирована.
Совместимый алгоритм - выберите алгоритм обучения агента. Этот список содержит только алгоритмы, совместимые с выбранной средой.
Приложение «Дизайнер обучения по усилению» создает агенты с заданными по умолчанию глубокими представителями нейронных сетей и критиков. Для сетей по умолчанию можно задать следующие параметры.
Количество скрытых единиц - количество единиц в каждом полностью подключенном или LSTM-уровне сетей актера и критика.
Использовать повторяющуюся нейронную сеть - выберите эту опцию, чтобы создать представления актера и критика с повторяющимися нейронными сетями, которые содержат уровень LSTM.
Для создания агента нажмите кнопку ОК.
Приложение добавляет новый агент по умолчанию в область Агенты и открывает документ для редактирования параметров агента.

Кроме того, можно импортировать агента из рабочего пространства MATLAB ® в Armigination Learning Designer. Для этого на вкладке «Обучение армированию» нажмите кнопку «Импорт». Затем в разделе Выбрать агента выберите агента для импорта.

Приложение добавляет новый импортированный агент в область Агенты и открывает документ для редактирования параметров агента.
В Arminitation Learning Designer можно редактировать параметры агента в соответствующем документе агента.

Для каждого агента можно изменить следующие параметры.
Параметры агента - параметры агента, такие как время выборки и коэффициент дисконтирования. Укажите эти параметры для всех поддерживаемых типов агентов.
Модель исследования - варианты модели исследования. Агенты PPO не имеют модели исследования.
Модель сглаживания целевой политики - параметры сглаживания целевой политики, который поддерживается только для TD3 агентов.
Дополнительные сведения об этих параметрах см. в разделе Соответствующий объект параметров агента.
rlDQNAgentOptions - Параметры агента DQN
rlDDPGAgentOptions - Параметры агента DDPG
rlTD3AgentOptions - TD3 параметры агента
rlPPOAgentOptions - Параметры агента PPO
Параметры агента можно импортировать из рабочей области MATLAB. Чтобы создать параметры для каждого типа агента, используйте один из предшествующих объектов. Можно также импортировать параметры, ранее экспортированные из приложения «Дизайнер обучения усиления»
Чтобы импортировать параметры, на соответствующей вкладке Агент щелкните Импорт. Затем в разделе Опции (Options) выберите объект опций. В приложении перечислены только совместимые объекты опций из рабочей области MATLAB.

Приложение настраивает параметры агента в соответствии с параметрами В выбранном объекте параметров.
Можно редактировать свойства представления актера и критика для каждого агента.
Агенты DQN имеют просто критическую сеть.
Агенты DDPG и PPO имеют представление актёра и представление критика.
TD3 агенты имеют представление актера и два представления критика. При изменении параметров представления критиков для агента TD3 изменения применяются к обоим критикам.
Можно также импортировать представления актера и критика из рабочей области MATLAB. Дополнительные сведения о создании представлений актера и критика см. в разделе Создание представлений политик и функций значений. Можно также импортировать представления, ранее экспортированные из приложения «Дизайнер обучения армированию».
Чтобы импортировать представление актера или критика, на соответствующей вкладке Агент щелкните Импорт. Затем в разделе «Исполнитель» или «Критик» выберите объект представления со спецификациями действия и наблюдения, совместимыми со спецификациями агента.

Приложение заменяет представление актера или критика в агенте выбранным представлением. При импорте представления критика для агента TD3 приложение заменяет сеть для обоих критиков.
Чтобы использовать глубокую нейронную сеть, не заданную по умолчанию, для актера или критика, необходимо импортировать сеть из рабочей области MATLAB. Одной из распространенных стратегий является экспорт глубинной нейронной сети по умолчанию, ее изменение с помощью приложения Deep Network Designer, а затем ее импорт обратно в Engarming Learning Designer. Дополнительные сведения о создании глубоких нейронных сетей для актеров и критиков см. в разделе Создание представлений политик и ценностных функций.
Чтобы импортировать глубокую нейронную сеть, на соответствующей вкладке Агент щелкните Импорт. Затем в разделе «Актерская нейронная сеть» или «Критическая нейронная сеть» выберите сеть с входными и выходными слоями, совместимыми со спецификациями наблюдения и действия агента.

Приложение заменяет глубокую нейронную сеть в соответствующем акторе или представлении агента. При импорте сети критиков для агента TD3 приложение заменяет сеть для обоих критиков.
Для данного агента можно экспортировать любое из следующего в рабочую область MATLAB.
Агент
Параметры агента
Представление актера или критика
Актер или критик глубинной нейронной сети
Чтобы экспортировать агент или компонент агента, на соответствующей вкладке Агент щелкните Экспорт. Затем выберите элемент для экспорта.

Приложение сохраняет копию агента или компонента агента в рабочей области MATLAB.