Мягкий агент обучения с подкреплением актёра-критика
Алгоритм мягкого актёра-критика (SAC) является онлайновым методом обучения с подкреплением актёра без моделей и без политики. Алгоритм SAC вычисляет оптимальную политику, которая максимизирует как долгосрочное ожидаемое вознаграждение, так и энтропию политики. Энтропия политики является мерой неопределенности политики, учитывая состояние. Более высокое значение энтропии способствует большему исследованию. Максимизация как вознаграждения, так и энтропии балансирует разведку и эксплуатацию окружения. Пространство действий может быть только непрерывным.
Для получения дополнительной информации смотрите Агентов Мягкого Актёра-Критика.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Reinforcement Learning Agents.
создает агент SAC для окружения с заданным наблюдением и спецификаций действия с помощью опций инициализации по умолчанию. Представления актёра и критика в агенте используют глубокие нейронные сети по умолчанию, созданные с помощью спецификации наблюдений agent
= rlSACAgent(observationInfo
,actionInfo
)observationInfo
и спецификация действия actionInfo
.
создает агент SAC с представлениями глубоких нейронных сетей, сконфигурированными с помощью заданных опций инициализации (agent
= rlSACAgent(observationInfo
,actionInfo
,initOptions
)initOptions
).
устанавливает свойство AgentOptions для любого из предыдущих синтаксисов.agent
= rlSACAgent(___,agentOptions
)
train | Обучите агентов обучения с подкреплением в заданном окружении |
sim | Симулируйте обученных агентов обучения с подкреплением в заданном окружении |
getAction | Получите действие от агента или представления актера заданных наблюдений окружения |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Deep Network Designer | rlAgentInitializationOptions
| rlSACAgentOptions
| rlStochasticActorRepresentation
| rlValueRepresentation