Мягкий агент обучения с подкреплением критика агента
Алгоритм мягкого критика агента (SAC) является онлайновым, методом обучения с подкреплением критика агента вне политики без моделей. Алгоритм SAC вычисляет оптимальную политику, которая максимизирует и долгосрочное ожидаемое вознаграждение и энтропию политики. Энтропия политики является мерой неопределенности политики, учитывая состояние. Более высокое энтропийное значение способствует большему количеству исследования. Максимизация и вознаграждение и энтропия балансирует исследование и эксплуатацию среды.
Для получения дополнительной информации смотрите Мягких Агентов Критика Агента.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента SAC для среды с заданным наблюдением и спецификациями действия. (agent
= rlSACAgent(observationInfo
,actionInfo
)observationInfo
) и спецификации действия (actionInfo
). Представления актёра и критика в использовании агента глубокие нейронные сети по умолчанию создали использование спецификации наблюдений observationInfo
и спецификация действия actionInfo
.
создает агента SAC с представлениями глубокой нейронной сети, сконфигурированными с помощью заданных опций инициализации (agent
= rlSACAgent(observationInfo
,actionInfo
,initOptions
)initOptions
).
устанавливает agent
= rlSACAgent(___,agentOptions
)AgentOptions
свойство для любого из предыдущих синтаксисов.
train | Обучите агентов обучения с подкреплением в заданной среде |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
Deep Network Designer | rlAgentInitializationOptions
| rlSACAgentOptions
| rlStochasticActorRepresentation
| rlValueRepresentation