Мягкий агент обучения с подкреплением критика агента
Алгоритм мягкого критика агента (SAC) является онлайновым, методом обучения с подкреплением критика агента вне политики без моделей. Алгоритм SAC вычисляет оптимальную политику, которая максимизирует и долгосрочное ожидаемое вознаграждение и энтропию политики. Энтропия политики является мерой неопределенности политики, учитывая состояние. Более высокое энтропийное значение способствует большему количеству исследования. Максимизация и вознаграждение и энтропия балансирует исследование и эксплуатацию среды. Пространство действий может только быть непрерывным.
Для получения дополнительной информации смотрите Мягких Агентов Критика Агента.
Для получения дополнительной информации о различных типах агентов обучения с подкреплением смотрите Агентов Обучения с подкреплением.
создает агента SAC для среды с заданным наблюдением и спецификациями действия, с помощью опций инициализации по умолчанию. Представления актёра и критика в использовании агента глубокие нейронные сети по умолчанию создали использование спецификации наблюдений agent
= rlSACAgent(observationInfo
,actionInfo
)observationInfo
и спецификация действия actionInfo
.
создает агента SAC с представлениями глубокой нейронной сети, сконфигурированными с помощью заданных опций инициализации (agent
= rlSACAgent(observationInfo
,actionInfo
,initOptions
)initOptions
).
устанавливает свойство AgentOptions для любого из предыдущих синтаксисов.agent
= rlSACAgent(___,agentOptions
)
train | Обучите агентов обучения с подкреплением в заданной среде |
sim | Симулируйте обученных агентов обучения с подкреплением в заданной среде |
getAction | Получите действие из агента или представления актера, данного наблюдения среды |
getActor | Получите представление актера от агента обучения с подкреплением |
setActor | Установите представление актера агента обучения с подкреплением |
getCritic | Получите представление критика от агента обучения с подкреплением |
setCritic | Установите представление критика агента обучения с подкреплением |
generatePolicyFunction | Создайте функцию, которая оценивает обученную политику агента обучения с подкреплением |
rlAgentInitializationOptions
| rlSACAgentOptions
| rlStochasticActorRepresentation
| rlValueRepresentation
| Deep Network Designer