rlTable

Таблица Value или Q-таблица

Описание

Таблицы значения и Q-таблицы являются одним способом представлять сети критика для обучения с подкреплением. Таблицы значения хранят вознаграждения за конечное множество наблюдений. Q-таблицы хранят вознаграждения за соответствующие конечные пары действия наблюдения.

Создать представление функции ценности с помощью rlTable объект, используйте rlValueRepresentation или rlQValueRepresentation объект.

Создание

Описание

пример

T = rlTable(obsinfo) составляет таблицу значения для данных дискретных наблюдений.

пример

T = rlTable(obsinfo,actinfo) создает Q-таблицу для данных дискретных наблюдений и действий.

Входные параметры

развернуть все

Спецификация наблюдений в виде rlFiniteSetSpec объект.

Спецификация действия в виде rlFiniteSetSpec объект.

Свойства

развернуть все

Вознаградите таблицу, возвращенную как массив. Когда Table isa:

  • Таблица Value, это содержит строки NO, где NO является количеством конечных значений наблюдения.

  • Q-таблица, это содержит строки NO и столбцы NA, где NA является количеством возможных конечных действий.

Функции объекта

rlValueRepresentationПредставление критика функции ценности для агентов обучения с подкреплением
rlQValueRepresentation Представление критика Q-функции-ценности для агентов обучения с подкреплением

Примеры

свернуть все

В этом примере показано, как использовать rlTable составлять таблицу значения. Можно использовать такую таблицу, чтобы представлять критика агента критика агента с конечным пространством наблюдений.

Создайте интерфейс среды и получите его спецификации наблюдений.

env = rlPredefinedEnv("BasicGridWorld");
obsInfo = getObservationInfo(env)
obsInfo = 
  rlFiniteSetSpec with properties:

       Elements: [25x1 double]
           Name: "MDP Observations"
    Description: [0x0 string]
      Dimension: [1 1]
       DataType: "double"

Составьте таблицу значения с помощью спецификации наблюдений.

vTable = rlTable(obsInfo)
vTable = 
  rlTable with properties:

    Table: [25x1 double]

В этом примере показано, как использовать rlTable создать Q-таблицу. Такая таблица могла использоваться, чтобы представлять агента или критика агента с конечным наблюдением и пространствами действий.

Создайте интерфейс среды и получите его спецификации наблюдений и спецификации действия.

env=rlMDPEnv(createMDP(8,["up";"down"]));
obsInfo = getObservationInfo(env)
obsInfo = 
  rlFiniteSetSpec with properties:

       Elements: [8x1 double]
           Name: "MDP Observations"
    Description: [0x0 string]
      Dimension: [1 1]
       DataType: "double"

actInfo = getActionInfo(env)
actInfo = 
  rlFiniteSetSpec with properties:

       Elements: [2x1 double]
           Name: "MDP Actions"
    Description: [0x0 string]
      Dimension: [1 1]
       DataType: "double"

Создайте Q-таблицу с помощью спецификаций наблюдений и спецификаций действия.

qTable = rlTable(obsInfo,actInfo)
qTable = 
  rlTable with properties:

    Table: [8x2 double]

Введенный в R2019a