Мягкий агент обучения с подкреплением актёра-критика
Алгоритм мягкого актёра-критика (SAC) является онлайновым методом обучения с подкреплением актёра без моделей и без политики. Алгоритм SAC вычисляет оптимальную политику, которая максимизирует как долгосрочное ожидаемое вознаграждение, так и энтропию политики. Энтропия политики является мерой неопределенности политики, учитывая состояние. Более высокое значение энтропии способствует большему исследованию. Максимизация как вознаграждения, так и энтропии балансирует разведку и эксплуатацию окружения. Пространство действий может быть только непрерывным.
Для получения дополнительной информации смотрите Агентов Мягкого Актёра-Критика.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.
создает агент SAC для окружения с заданным наблюдением и спецификаций действия с помощью опций инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные с помощью спецификации наблюдений agent = rlSACAgent(observationInfo,actionInfo)observationInfo и спецификация действия actionInfo.
создает агент SAC с представлениями глубоких нейронных сетей, сконфигурированными с помощью заданных опций инициализации (agent = rlSACAgent(observationInfo,actionInfo,initOptions)initOptions).
устанавливает свойство AgentOptions для любого из предыдущих синтаксисов.agent = rlSACAgent(___,agentOptions)
train | Обучите агентов обучения с подкреплением в заданном окружении |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Deep Network Designer | rlAgentInitializationOptions | rlSACAgentOptions | rlStochasticActorRepresentation | rlValueRepresentation