Агент обучения с подкреплением актёра-критика
Агенты актёра-критика (AC) реализуют такие алгоритмы актёра-критика, как A2C и A3C, которые являются безмодельными, онлайновыми методами обучения с подкреплением по политике. Агент актёра-критика оптимизирует политику (актёра) непосредственно и использует критика, чтобы оценить текущее или будущее вознаграждения. Пространство действий может быть дискретным или непрерывным.
Для получения дополнительной информации смотрите Агентов актёра-критика. Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.
создает агента актёра-критика для окружения с заданным наблюдением и спецификаций действия, используя опции инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные из спецификации наблюдений agent = rlACAgent(observationInfo,actionInfo)observationInfo и спецификация действия actionInfo.
создает агента актёра-критика для окружения с заданным наблюдением и спецификаций действия. Агент использует сети по умолчанию, в которых каждый скрытый полностью соединенный слой имеет количество модулей, заданное в agent = rlACAgent(observationInfo,actionInfo,initOpts)initOpts объект. Агенты актёра-критика не поддерживают рекуррентные нейронные сети. Для получения дополнительной информации об опциях инициализации смотрите rlAgentInitializationOptions.
создает агента актёра-критика и устанавливает свойство AgentOptions на agent = rlACAgent(___,agentOptions)agentOptions входной параметр. Используйте этот синтаксис после любого из входных параметров в предыдущих синтаксисах.
train | Обучите агентов обучения с подкреплением в заданном окружении |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Для непрерывных пространств действий, rlACAgent объект не применяет ограничения, заданные спецификацией действия, поэтому необходимо применять ограничения пространства действий в окружении.
Deep Network Designer | rlACAgentOptions | rlAgentInitializationOptions | rlStochasticActorRepresentation | rlValueRepresentation