fitrgam

Подходящая обобщенная аддитивная модель (GAM) для регрессии

Описание

пример

Mdl = fitrgam(Tbl,ResponseVarName) возвращает обобщенную аддитивную модель Mdl обученное использование выборочных данных содержится в таблице Tbl. Входной параметр ResponseVarName имя переменной в Tbl это содержит значения отклика для регрессии.

пример

Mdl = fitrgam(Tbl,formula) использует аргумент formula спецификации модели задавать переменную отклика и переменные предикторы в Tbl. Можно задать подмножество переменных предикторов и периоды взаимодействия для переменных предикторов при помощи formula.

Mdl = fitrgam(Tbl,Y) использует переменные предикторы в таблице Tbl и значения отклика в векторном Y.

пример

Mdl = fitrgam(X,Y) использует предикторы в матричном X и значения отклика в векторном Y.

пример

Mdl = fitrgam(___,Name,Value) задает опции с помощью одного или нескольких аргументов значения имени в дополнение к любой из комбинаций входных аргументов в предыдущих синтаксисах. Например, 'Interactions',5 задает, чтобы включать пять периодов взаимодействия в модель. Можно также задать список периодов взаимодействия с помощью 'Interactions' аргумент значения имени.

Примеры

свернуть все

Обучите одномерный GAM, который содержит линейные члены для предикторов. Затем интерпретируйте предсказание для заданного экземпляра данных при помощи plotLocalEffects функция.

Загрузите набор данных NYCHousing2015.

load NYCHousing2015

Набор данных включает 10 переменных с информацией о продажах свойств в Нью-Йорке в 2 015. Этот пример использует эти переменные, чтобы анализировать отпускные цены (SALEPRICE).

Предварительно обработайте набор данных. Удалите выбросы, преобразуйте datetime массив (SALEDATE) к числам месяца и перемещению переменная отклика (SALEPRICE) к последнему столбцу.

idx = isoutlier(NYCHousing2015.SALEPRICE);
NYCHousing2015(idx,:) = [];
NYCHousing2015.SALEDATE = month(NYCHousing2015.SALEDATE);
NYCHousing2015 = movevars(NYCHousing2015,'SALEPRICE','After','SALEDATE');

Отобразите первые три строки таблицы.

head(NYCHousing2015,3)
ans=3×10 table
    BOROUGH    NEIGHBORHOOD       BUILDINGCLASSCATEGORY        RESIDENTIALUNITS    COMMERCIALUNITS    LANDSQUAREFEET    GROSSSQUAREFEET    YEARBUILT    SALEDATE    SALEPRICE
    _______    ____________    ____________________________    ________________    _______________    ______________    _______________    _________    ________    _________

       2       {'BATHGATE'}    {'01  ONE FAMILY DWELLINGS'}           1                   0                4750              2619            1899           8           0    
       2       {'BATHGATE'}    {'01  ONE FAMILY DWELLINGS'}           1                   0                4750              2619            1899           8           0    
       2       {'BATHGATE'}    {'01  ONE FAMILY DWELLINGS'}           1                   1                1287              2528            1899          12           0    

Обучите одномерный GAM отпускным ценам. Задайте переменные для BOROUGH, NEIGHBORHOOD, BUILDINGCLASSCATEGORY, и SALEDATE как категориальные предикторы.

Mdl = fitrgam(NYCHousing2015,'SALEPRICE','CategoricalPredictors',[1 2 3 9])
Mdl = 
  RegressionGAM
           PredictorNames: {1x9 cell}
             ResponseName: 'SALEPRICE'
    CategoricalPredictors: [1 2 3 9]
        ResponseTransform: 'none'
                Intercept: 3.7518e+05
          NumObservations: 83517


  Properties, Methods

Mdl RegressionGAM объект модели. Отображение модели показывает частичный список свойств модели. Чтобы просмотреть полный список свойств, дважды кликните имя переменной Mdl в Рабочей области. Редактор Переменных открывается для Mdl. В качестве альтернативы можно отобразить свойства в Командном окне при помощи записи через точку. Например, отобразите предполагаемую точку пересечения (постоянный) термин Mdl.

Mdl.Intercept
ans = 3.7518e+05

Предскажите отпускную цену за первое наблюдение за обучающими данными и постройте локальные эффекты условий в Mdl на предсказании.

yFit = predict(Mdl,NYCHousing2015(1,:))
yFit = 4.4421e+05
plotLocalEffects(Mdl,NYCHousing2015(1,:))

Figure contains an axes. The axes with title Local Effects Plot contains an object of type bar.

predict функция предсказывает отпускную цену за первое наблюдение как 4.4421e5. plotLocalEffects функция создает горизонтальный столбчатый график, который показывает локальные эффекты условий в Mdl на предсказании. Каждое локальное значение эффекта показывает вклад каждого термина к предсказанной отпускной цене.

Обучите обобщенную аддитивную модель, которая содержит линейные члены и периоды взаимодействия для предикторов тремя различными способами:

  • Задайте периоды взаимодействия с помощью formula входной параметр.

  • Задайте 'Interactions' аргумент значения имени.

  • Создайте модель с линейными членами сначала и добавьте периоды взаимодействия в модель при помощи addInteractions функция.

Загрузите carbig набор данных, который содержит измерения автомобилей, сделанных в 1970-х и в начале 1980-х.

load carbig

Составьте таблицу, которая содержит переменные предикторы (Acceleration, Displacement, Horsepower, и Weight) и переменная отклика (MPG).

tbl = table(Acceleration,Displacement,Horsepower,Weight,MPG);

Задайте formula

Обучите GAM, который содержит эти четыре линейных члена (Acceleration, Displacement, Horsepower, и Weight) и два периода взаимодействия (Acceleration*Displacement и Displacement*Horsepower). Задайте условия с помощью формулы в форме 'Y ~ terms'.

Mdl1 = fitrgam(tbl,'MPG ~ Acceleration + Displacement + Horsepower + Weight + Acceleration:Displacement + Displacement:Horsepower');

Функция добавляет периоды взаимодействия в модель в порядке важности. Можно использовать Interactions свойство проверять периоды взаимодействия в модель и порядок, в который fitrgam добавляет их в модель. Отобразите Interactions свойство.

Mdl1.Interactions
ans = 2×2

     2     3
     1     2

Каждая строка Interactions представляет один период взаимодействия и содержит индексы столбца переменных предикторов в течение периода взаимодействия.

Задайте 'Interactions'

Передайте обучающие данные (tbl) и имя переменной отклика в tbl к fitrgam, так, чтобы функция включала линейные члены для всех других переменных как предикторы. Задайте 'Interactions' аргумент значения имени с помощью логической матрицы, чтобы включать эти два периода взаимодействия, x1*x2 и x2*x3.

Mdl2 = fitrgam(tbl,'MPG','Interactions',logical([1 1 0 0; 0 1 1 0]));
Mdl2.Interactions
ans = 2×2

     2     3
     1     2

Можно также задать 'Interactions' как номер периодов взаимодействия или как 'all' включать все доступные периоды взаимодействия. Среди заданных периодов взаимодействия, fitrgam идентифицирует тех, p-значения которых не больше 'MaxPValue' значение и добавляет их в модель. 'MaxPValue' по умолчанию 1 так, чтобы функция добавила все заданные периоды взаимодействия в модель.

Задайте 'Interactions','all' и набор 'MaxPValue' аргумент значения имени к 0,05.

Mdl3 = fitrgam(tbl,'MPG','Interactions','all','MaxPValue',0.05);
Warning: Model does not include interaction terms because all interaction terms have p-values greater than the 'MaxPValue' value, or the software was unable to improve the model fit.
Mdl3.Interactions
ans =

  0x2 empty double matrix

Mdl3 не включает периодов взаимодействия, который подразумевает одно из следующего: все периоды взаимодействия имеют p-значения, больше, чем 0,05, или добавление, что периоды взаимодействия не улучшают подгонку модели.

Используйте addInteractions Функция

Обучите одномерный GAM, который содержит линейные члены для предикторов, и затем добавьте периоды взаимодействия в обученную модель при помощи addInteractions функция. Задайте второй входной параметр addInteractions таким же образом вы задаете 'Interactions' аргумент значения имени fitrgam. Можно задать список периодов взаимодействия с помощью логической матрицы, номера периодов взаимодействия или 'all'.

Задайте номер периодов взаимодействия как 3, чтобы добавить три самых важных периода взаимодействия в обученную модель.

Mdl4 = fitrgam(tbl,'MPG');
UpdatedMdl4 = addInteractions(Mdl4,3);
UpdatedMdl4.Interactions
ans = 3×2

     2     3
     1     2
     3     4

Mdl4 одномерный GAM и UpdatedMdl4 обновленный GAM, который содержит все условия в Mdl4 и три дополнительных периода взаимодействия.

Обучите перекрестный подтвержденный GAM с 10 сгибами, который является опцией перекрестной проверки по умолчанию, при помощи fitrgam. Затем используйте kfoldPredict предсказать ответы для наблюдений сгиба валидации с помощью модели, обученной на наблюдениях учебного сгиба.

Загрузите carbig набор данных, который содержит измерения автомобилей, сделанных в 1970-х и в начале 1980-х.

load carbig

Составьте таблицу, которая содержит переменные предикторы (Acceleration, Displacement, Horsepower, и Weight) и переменная отклика (MPG).

tbl = table(Acceleration,Displacement,Horsepower,Weight,MPG);

Создайте перекрестный подтвержденный GAM при помощи опции перекрестной проверки по умолчанию. Задайте 'CrossVal' аргумент значения имени как 'on'.

rng('default') % For reproducibility
CVMdl = fitrgam(tbl,'MPG','CrossVal','on')
CVMdl = 
  RegressionPartitionedGAM
    CrossValidatedModel: 'GAM'
         PredictorNames: {1x4 cell}
           ResponseName: 'MPG'
        NumObservations: 398
                  KFold: 10
              Partition: [1x1 cvpartition]
      NumTrainedPerFold: [1x1 struct]
      ResponseTransform: 'none'


  Properties, Methods

fitrgam функция создает RegressionPartitionedGAM объект модели CVMdl с 10 сгибами. Во время перекрестной проверки программное обеспечение завершает эти шаги:

  1. Случайным образом разделите данные в 10 наборов.

  2. Для каждого набора зарезервируйте набор как данные о валидации и обучите модель с помощью других 9 наборов.

  3. Сохраните 10 компактных, обученных моделей a в векторе ячейки 10 на 1 в Trained свойство перекрестного подтвержденного объекта модели RegressionPartitionedGAM.

Можно заменить установку перекрестной проверки по умолчанию при помощи 'CVPartition', 'Holdout', 'KFold', или 'Leaveout' аргумент значения имени.

Предскажите ответы для наблюдений в tbl при помощи kfoldPredict. Функция предсказывает ответы для каждого наблюдения с помощью модели, обученной без того наблюдения.

yHat = kfoldPredict(CVMdl);

yHat числовой вектор. Отобразите первые пять предсказанных ответов.

yHat(1:5)
ans = 5×1

   19.4848
   15.7203
   15.5742
   15.3185
   17.8223

Вычислите потерю регрессии (среднеквадратическая ошибка).

L = kfoldLoss(CVMdl)
L = 17.7248

kfoldLoss возвращает среднюю среднеквадратическую ошибку более чем 10 сгибов.

Оптимизируйте параметры GAM относительно перекрестной проверки при помощи bayesopt функция.

Загрузите carbig набор данных, который содержит измерения автомобилей, сделанных в 1970-х и в начале 1980-х.

load carbig

Задайте Acceleration, Displacement, Horsepower, и Weight как переменные предикторы (X) и MPG как переменная отклика (Y).

X = [Acceleration,Displacement,Horsepower,Weight];
Y = MPG;

Подготовьте optimizableVariable объекты для аргументов значения имени, что вы хотите оптимизировать использующую Байесовую оптимизацию. Этот пример находит оптимальные значения для MaxNumSplitsPerPredictor и NumTreesPerPredictor аргументы fitrgam.

maxNumSplits = optimizableVariable('maxNumSplits',[1,10],'Type','integer');
numTrees = optimizableVariable('numTrees',[1,500],'Type','integer');

Создайте целевую функцию, которая берет вход z = [maxNumSplits,numTrees] и возвращает перекрестное подтвержденное значение потерь z.

minfun = @(z)kfoldLoss(fitrgam(X,Y,'CrossVal','on', ...
    'MaxNumSplitsPerPredictor',z.maxNumSplits, ...
    'NumTreesPerPredictor',z.numTrees)); 

Если вы задаете опцию перекрестной проверки ('CrossVal','on'), затем fitrgam функция возвращает перекрестный подтвержденный объект модели RegressionPartitionedGAM. kfoldLoss функция возвращает потерю регрессии (среднеквадратическая ошибка), полученная перекрестной подтвержденной моделью. Поэтому указатель на функцию minfun вычисляет потерю перекрестной проверки в параметрах в z.

Ищите лучшие параметры [maxNumSplits,numTrees] использование bayesopt. Для воспроизводимости выберите 'expected-improvement-plus' функция приобретения. Функция приобретения по умолчанию зависит от времени выполнения и, поэтому, может дать различные результаты.

rng('default')
results = bayesopt(minfun,[maxNumSplits,numTrees],'Verbose',0, ...
    'IsObjectiveDeterministic',true, ...
    'AcquisitionFunctionName','expected-improvement-plus');

Получите лучшую точку из results.

zbest = bestPoint(results)
zbest=1×2 table
    maxNumSplits    numTrees
    ____________    ________

         1            215   

Обучите оптимизированный GAM с помощью zbest значения.

Mdl = fitrgam(X,Y, ...
    'MaxNumSplitsPerPredictor',zbest.maxNumSplits, ...
    'NumTreesPerPredictor',zbest.numTrees);

Входные параметры

свернуть все

Выборочные данные раньше обучали модель в виде таблицы. Каждая строка Tbl соответствует одному наблюдению, и каждый столбец соответствует одному переменному предиктору. Многостолбцовые переменные и массивы ячеек кроме массивов ячеек из символьных векторов не позволены.

  • Опционально, Tbl может содержать столбец для переменной отклика и столбец для весов наблюдения. Переменная отклика и значения веса должны быть числовыми векторами.

    Необходимо задать переменную отклика в Tbl при помощи ResponseVarName или formula и задайте веса наблюдения в Tbl при помощи 'Weights'.

    • Задайте переменную отклика при помощи ResponseVarNamefitrgam использует остающиеся переменные в качестве предикторов. Использовать подмножество остающихся переменных в Tbl как предикторы, задайте переменные предикторы при помощи 'PredictorNames'.

    • Задайте спецификацию модели при помощи formulafitrgam использует подмножество переменных в Tbl как переменные предикторы и переменная отклика, как задано в formula.

  • Если Tbl не содержит переменную отклика, затем задает переменную отклика при помощи Y. Длина переменной отклика Y и количество строк в Tbl должно быть равным. Использовать подмножество переменных в Tbl как предикторы, задайте переменные предикторы при помощи 'PredictorNames'.

fitrgam рассматривает NaN, '' (пустой символьный вектор), "" (пустая строка), <missing>, и <undefined> значения в Tbl быть отсутствующими значениями.

  • fitrgam не использует наблюдения со всеми отсутствующими значениями в подгонке.

  • fitrgam не использует наблюдения с недостающими значениями отклика в подгонке.

  • fitrgam наблюдения использования с некоторыми отсутствующими значениями для предикторов, чтобы найти разделения на переменных, для которых эти наблюдения имеют допустимые значения.

Типы данных: table

Имя переменной отклика в виде вектора символов или строкового скаляра, содержащего имя переменной отклика в Tbl. Например, если переменная отклика Y хранится в Tbl.Y, затем задайте его как 'Y'.

Типы данных: char | string

Спецификация модели в виде вектора символов или строкового скаляра в форме 'Y ~ terms'. formula аргумент задает переменную отклика и линейные члены и периоды взаимодействия для переменных предикторов. Используйте formula задавать подмножество переменных в Tbl как предикторы для обучения модель. Если вы задаете формулу, то программное обеспечение не использует переменных в Tbl это не появляется в formula.

Например, задайте 'Y~x1+x2+x3+x1:x2'. В этой форме, Y представляет переменную отклика и x1x2 , и x3 представляйте линейные члены для переменных предикторов. x1:x2 представляет период взаимодействия для x1 и x2.

Имена переменных в формуле должны быть оба именами переменных в Tbl (Tbl.Properties.VariableNames) и допустимые идентификаторы MATLAB®. Можно проверить имена переменных в Tbl при помощи isvarname функция. Если имена переменных не допустимы, то можно преобразовать их при помощи matlab.lang.makeValidName функция.

В качестве альтернативы можно задать переменную отклика и линейные члены для предикторов с помощью formula, и задайте периоды взаимодействия для предикторов с помощью 'Interactions'.

fitrgam создает набор деревьев взаимодействия, использующих только термины, p которых - значения не больше 'MaxPValue' значение.

Пример: 'Y~x1+x2+x3+x1:x2'

Типы данных: char | string

Данные об ответе в виде числового вектор-столбца. Каждая запись в Y ответ на данные в соответствующей строке X или Tbl.

Программное обеспечение рассматривает NaN значения в Y быть отсутствующими значениями. fitrgam не использует наблюдения с недостающими значениями отклика в подгонке.

Типы данных: single | double

Данные о предикторе в виде числовой матрицы. Каждая строка X соответствует одному наблюдению, и каждый столбец соответствует одному переменному предиктору.

fitrgam рассматривает NaN значения в X как отсутствующие значения. Функция не использует наблюдения со всеми отсутствующими значениями в подгонке. fitrgam наблюдения использования с некоторыми отсутствующими значениями для X найти разделения на переменных, для которых эти наблюдения имеют допустимые значения.

Типы данных: single | double

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'Interactions','all','MaxPValue',0.05 задает, чтобы включать все доступные периоды взаимодействия, p которых - значения не больше 0.05.
Опции GAM

свернуть все

Начальная скорость обучения повышения градиента в течение многих периодов взаимодействия в виде числового скаляра в интервале (0,1].

Для каждой повышающей итерации для деревьев взаимодействия, fitrgam начинает соответствовать начальной скорости обучения. Функциональные половины скорость обучения, пока это не находит уровень, который улучшает подгонку модели.

Обучение модель с помощью небольшой скорости обучения требует большего количества итераций изучения, но часто достигает лучшей точности.

Для получения дополнительной информации о повышении градиента, смотрите, что Градиент Повышает Алгоритм.

Пример: 'InitialLearnRateForInteractions',0.1

Типы данных: single | double

Начальная скорость обучения повышения градиента для линейных членов в виде числового скаляра в интервале (0,1].

Для каждой повышающей итерации для деревьев предиктора, fitrgam начинает соответствовать начальной скорости обучения. Функциональные половины скорость обучения, пока это не находит уровень, который улучшает подгонку модели.

Обучение модель с помощью небольшой скорости обучения требует большего количества итераций изучения, но часто достигает лучшей точности.

Для получения дополнительной информации о повышении градиента, смотрите, что Градиент Повышает Алгоритм.

Пример: 'InitialLearnRateForPredictors',0.1

Типы данных: single | double

Номер или список периодов взаимодействия, чтобы включать в кандидата устанавливают S в виде неотрицательного целочисленного скаляра, логической матрицы или 'all'.

  • Номер периодов взаимодействия в виде неотрицательного целого числа — S включает конкретное количество важных периодов взаимодействия, выбранных на основе p - значения условий.

  • Список периодов взаимодействия в виде логической матрицы — S включает условия, заданные t- p логическая матрица, где t номер периодов взаимодействия и p количество предикторов, используемых, чтобы обучить модель. Например, logical([1 1 0; 0 1 1]) представляет две пары периодов взаимодействия: пара первых и вторых предикторов и пара вторых и третьих предикторов.

    Если fitrgam использует подмножество входных переменных как предикторы, затем функция индексирует предикторы с помощью только подмножество. Таким образом, индексы столбца логической матрицы не считают переменные веса ответа и наблюдения. Индексы также не считают переменные не используемыми функцией.

  • 'all'S включает все возможные пары периодов взаимодействия, который является   p*(p – 1)/2 количество условий всего.

Среди периодов взаимодействия в S, fitrgam функция идентифицирует тех, p которых - значения не больше 'MaxPValue' значение и использует их, чтобы создать набор деревьев взаимодействия. Используйте значение по умолчанию ('MaxPValue', 1) создавать деревья взаимодействия, использующие все термины в S.

Пример: 'Interactions','all'

Типы данных: single | double | logical | char | string

Максимальное количество разделений решения (или узлы ветви) для каждого дерева взаимодействия (повышенное дерево в течение периода взаимодействия) в виде положительного целочисленного скаляра.

Пример: 'MaxNumSplitsPerInteraction',5

Типы данных: single | double

Максимальное количество разделений решения (или узлы ветви) для каждого дерева предиктора (повышенное дерево для линейного члена) в виде положительного целочисленного скаляра. По умолчанию, fitrgam использует пень для дерева предиктора.

Пример: 'MaxNumSplitsPerPredictor',5

Типы данных: single | double

Максимальный p - значение для обнаружения периодов взаимодействия в виде числового скаляра в интервале [0,1].

fitrgam сначала находит, что кандидат установил S периодов взаимодействия от formula или 'Interactions'. Затем функция идентифицирует периоды взаимодействия, p которых - значения не больше 'MaxPValue' значение и использует их, чтобы создать набор деревьев взаимодействия.

Значение по умолчанию ('MaxPValue',1) деревья взаимодействия сборок в течение всех периодов взаимодействия в кандидате устанавливают S.

Для получения дополнительной информации об обнаружении периодов взаимодействия, смотрите Обнаружение Периода взаимодействия.

Пример: 'MaxPValue',0.05

Типы данных: single | double

Количество интервалов для числовых предикторов в виде положительного целочисленного скаляра или [] пустой.

  • Если вы задаете 'NumBins' значение как положительный целочисленный скаляр (numBinsто fitrgam интервалы каждый числовой предиктор в в большей части numBins равновероятные интервалы, и затем выращивают деревья на индексах интервала вместо исходных данных.

    • Количество интервалов может быть меньше numBins если предиктор имеет меньше, чем numBins уникальные значения.

    • fitrgam не делает интервала категориальные предикторы.

  • Если 'NumBins' значение пусто ([]то fitrgam не делает интервала никакие предикторы.

Когда вы используете большой обучающий набор данных, эта опция раскладывания ускоряет обучение, но может вызвать уменьшение в точности. Можно сначала использовать значение по умолчанию 'NumBins', и затем измените значение в зависимости от точности и учебной скорости.

Обученная модель Mdl хранит границы интервала в BinEdges свойство.

Пример: 'NumBins',50

Типы данных: single | double

Количество деревьев в период взаимодействия в виде положительного целочисленного скаляра.

'NumTreesPerInteraction' значение эквивалентно количеству итераций повышения градиента в течение периодов взаимодействия для предикторов. Для каждой итерации, fitrgam добавляет набор деревьев взаимодействия к модели, одного дерева в течение каждого периода взаимодействия. Чтобы узнать об алгоритме повышения градиента, смотрите, что Градиент Повышает Алгоритм.

Можно определить, имеет ли подобранная модель конкретное количество деревьев путем просмотра диагностического сообщения, отображенного когда 'Verbose' 1 или 2, или путем проверки ReasonForTermination значение свойства модели Mdl.

Пример: 'NumTreesPerInteraction',500

Типы данных: single | double

Количество деревьев на линейный член в виде положительного целочисленного скаляра.

'NumTreesPerPredictor' значение эквивалентно количеству итераций повышения градиента для линейных членов для предикторов. Для каждой итерации, fitrgam добавляет набор деревьев предиктора к модели, одного дерева для каждого предиктора. Чтобы узнать об алгоритме повышения градиента, смотрите, что Градиент Повышает Алгоритм.

Можно определить, имеет ли подобранная модель конкретное количество деревьев путем просмотра диагностического сообщения, отображенного когда 'Verbose' 1 или 2, или путем проверки ReasonForTermination значение свойства модели Mdl.

Пример: 'NumTreesPerPredictor',500

Типы данных: single | double

Другие опции регрессии

свернуть все

Категориальные предикторы перечисляют в виде одного из значений в этой таблице.

ЗначениеОписание
Вектор из положительных целых чисел

Каждая запись в векторе является значением индекса, соответствующим столбцу данных о предикторе, которые содержат категориальную переменную. Значения индекса между 1 и p, где p количество предикторов, используемых, чтобы обучить модель.

Если fitrgam использует подмножество входных переменных как предикторы, затем функция индексирует предикторы с помощью только подмножество. 'CategoricalPredictors' значения не считают переменную отклика, переменную веса наблюдения и любые другие переменные, которые не использует функция.

Логический вектор

true запись означает, что соответствующий столбец данных о предикторе является категориальной переменной. Длиной вектора является p.

Символьная матрицаКаждая строка матрицы является именем переменного предиктора. Имена должны совпадать с записями в PredictorNames. Заполните имена дополнительными пробелами, таким образом, каждая строка символьной матрицы имеет ту же длину.
Массив строк или массив ячеек из символьных векторовКаждым элементом в массиве является имя переменного предиктора. Имена должны совпадать с записями в PredictorNames.
'all'Все предикторы являются категориальными.

По умолчанию, если данные о предикторе находятся в таблице (Tbl), fitrgam принимает, что переменная является категориальной, если это - логический вектор, неупорядоченный категориальный вектор, символьный массив, массив строк или массив ячеек из символьных векторов. Если данные о предикторе являются матрицей (X), fitrgam принимает, что все предикторы непрерывны. Чтобы идентифицировать любые другие предикторы как категориальные предикторы, задайте их при помощи 'CategoricalPredictors' аргумент значения имени.

Пример: 'CategoricalPredictors','all'

Типы данных: single | double | logical | char | string | cell

Количество итераций между диагностическими распечатками сообщения в виде неотрицательного целочисленного скаляра. Этот аргумент допустим только, когда вы задаете 'Verbose' как 1.

Если вы задаете 'Verbose',1 и 'NumPrint',numPrint, затем программное обеспечение отображается, диагностика передает каждый numPrint итерации в Командном окне.

Пример: 'NumPrint',500

Типы данных: single | double

Переменный предиктор называет в виде массива строк уникальных имен или массива ячеек уникальных векторов символов. Функциональность PredictorNames зависит от способа, которым вы снабжаете обучающими данными.

  • Если вы предоставляете X и Y, затем можно использовать PredictorNames присваивать имена к переменным предикторам в X.

    • Порядок имен в PredictorNames должен соответствовать порядку следования столбцов X. Таким образом, PredictorNames{1} имя X(:,1), PredictorNames{2} имя X(:,2), и так далее. Кроме того, size(X,2) и numel(PredictorNames) должно быть равным.

    • По умолчанию, PredictorNames {'x1','x2',...}.

  • Если вы предоставляете Tbl, затем можно использовать PredictorNames выбрать который переменные предикторы использовать в обучении. Таким образом, fitrgam использование только переменные предикторы в PredictorNames и переменная отклика во время обучения.

    • PredictorNames должно быть подмножество Tbl.Properties.VariableNames и не может включать имя переменной отклика.

    • По умолчанию, PredictorNames содержит имена всех переменных предикторов.

    • Хорошая практика должна задать предикторы для обучения с помощью любого 'PredictorNames' или formula, но не то и другое одновременно.

Пример: 'PredictorNames',{'SepalLength','SepalWidth','PetalLength','PetalWidth'}

Типы данных: string | cell

Имя переменной отклика в виде вектора символов или строкового скаляра.

  • Если вы предоставляете Y, затем можно использовать 'ResponseName' задавать имя для переменной отклика.

  • Если вы предоставляете ResponseVarName или formula, затем вы не можете использовать 'ResponseName'.

Пример: 'ResponseName','response'

Типы данных: char | string

Преобразование ответа в виде любого 'none' или указатель на функцию. Значением по умолчанию является 'none', что означает @(y)y, или никакое преобразование. Для функции MATLAB или функции вы задаете, используете ее указатель на функцию для преобразования ответа. Указатель на функцию должен принять вектор (исходные значения отклика) и возвратить вектор, одного размера (преобразованные значения отклика).

Пример: Предположим, что вы создаете указатель на функцию, который применяет экспоненциальное преобразование к входному вектору при помощи myfunction = @(y)exp(y). Затем можно задать преобразование ответа как 'ResponseTransform',myfunction.

Типы данных: char | string | function_handle

Уровень многословия в виде 0, 1, или 2. Verbose значение управляет объемом информации, который программное обеспечение отображает в Командном окне.

Эта таблица суммирует доступные опции уровня многословия.

ЗначениеОписание
0Программное обеспечение не отображает информации.
1Программное обеспечение отображается, диагностика передает каждый numPrint итерации, где numPrint 'NumPrint' значение.
2Программное обеспечение отображает диагностические сообщения в каждой итерации.

Каждая линия диагностических сообщений показывает информацию о каждой повышающей итерации и включает следующие столбцы:

  • Type — Тип обученных деревьев, 1D (деревья предиктора или повышенные деревья для линейных членов для предикторов) или 2D (деревья взаимодействия или повышенные деревья в течение многих периодов взаимодействия для предикторов)

  • NumTrees — Количество деревьев на линейный член или период взаимодействия это fitrgam добавленный к модели до сих пор

  • DevianceОтклонение модели

  • RelTol — Относительное изменение предсказаний модели: (y^ky^k1)(y^ky^k1)/y^ky^k, где y^k вектор-столбец предсказаний модели в итерации k

  • LearnRate — Скорость обучения используется для текущей итерации

Пример: 'Verbose',1

Типы данных: single | double

Веса наблюдения в виде вектора из скалярных значений или имени переменной в Tbl. Программное обеспечение взвешивает наблюдения в каждой строке X или Tbl с соответствующим значением в Weights. Размер Weights должен равняться количеству строк в X или Tbl.

Если вы задаете входные данные как таблицу Tbl, затем Weights может быть имя переменной в Tbl это содержит числовой вектор. В этом случае необходимо задать Weights как вектор символов или строковый скаляр. Например, если вектор весов W хранится как Tbl.W, затем задайте его как 'W'.

fitrgam нормирует значения Weights суммировать к 1.

Типы данных: single | double | char | string

Опции перекрестной проверки

свернуть все

Отметьте, чтобы обучить перекрестную подтвержденную модель в виде 'on' или 'off'.

Если вы задаете 'on', затем программное обеспечение обучает перекрестную подтвержденную модель с 10 сгибами.

Можно заменить эту установку перекрестной проверки с помощью 'CVPartition', 'Holdout', 'KFold', или 'Leaveout' аргумент значения имени. Можно использовать только один аргумент значения имени перекрестной проверки за один раз, чтобы создать перекрестную подтвержденную модель.

В качестве альтернативы перекрестный подтвердите после создания модели путем передачи Mdl к crossval.

Пример: 'Crossval','on'

Раздел перекрестной проверки в виде cvpartition объект раздела, созданный cvpartition. Объект раздела задает тип перекрестной проверки и индексации для наборов обучения и валидации.

Чтобы создать перекрестную подтвержденную модель, можно задать только один из этих четырех аргументов значения имени: CVPartition, Holdout, KFold, или Leaveout.

Пример: Предположим, что вы создаете случайный раздел для 5-кратной перекрестной проверки на 500 наблюдениях при помощи cvp = cvpartition(500,'KFold',5). Затем можно задать перекрестную подтвержденную модель при помощи 'CVPartition',cvp.

Часть данных, используемых для валидации затяжки в виде скалярного значения в области значений (0,1). Если вы задаете 'Holdout',p, затем программное обеспечение завершает эти шаги:

  1. Случайным образом выберите и зарезервируйте p*100% из данных как данные о валидации, и обучают модель с помощью остальной части данных.

  2. Сохраните компактную, обученную модель в Trained свойство перекрестной подтвержденной модели.

Чтобы создать перекрестную подтвержденную модель, можно задать только один из этих четырех аргументов значения имени: CVPartition, Holdout, KFold, или Leaveout.

Пример: 'Holdout',0.1

Типы данных: double | single

Количество сгибов, чтобы использовать в перекрестной подтвержденной модели в виде положительного целочисленного значения, больше, чем 1. Если вы задаете 'KFold',k, затем программное обеспечение завершает эти шаги:

  1. Случайным образом разделите данные в k наборы.

  2. Для каждого набора зарезервируйте набор как данные о валидации и обучите модель с помощью другого k – 1 набор.

  3. Сохраните k компактные, обученные модели в k- 1 вектор ячейки в Trained свойство перекрестной подтвержденной модели.

Чтобы создать перекрестную подтвержденную модель, можно задать только один из этих четырех аргументов значения имени: CVPartition, Holdout, KFold, или Leaveout.

Пример: 'KFold',5

Типы данных: single | double

Флаг перекрестной проверки "Пропускает один" в виде 'on' или 'off'. Если вы задаете 'Leaveout','on', затем для каждого из наблюдений n (где n является количеством наблюдений, исключая недостающие наблюдения, заданные в NumObservations свойство модели), программное обеспечение завершает эти шаги:

  1. Зарезервируйте одно наблюдение как данные о валидации и обучите модель с помощью другого n – 1 наблюдение.

  2. Сохраните n компактные, обученные модели в n-by-1 вектор ячейки в Trained свойство перекрестной подтвержденной модели.

Чтобы создать перекрестную подтвержденную модель, можно задать только один из этих четырех аргументов значения имени: CVPartition, Holdout, KFold, или Leaveout.

Пример: 'Leaveout','on'

Выходные аргументы

свернуть все

Обученная обобщенная аддитивная модель, возвращенная как один из объектов модели в этой таблице.

Объект моделиОпции перекрестной проверки, чтобы обучить объект моделиСпособы предсказать ответы Используя объект модели
RegressionGAM'none'Использование predict предсказать ответы для новых наблюдений и использования resubPredict предсказать ответы для учебных наблюдений.
RegressionPartitionedGAMЗадайте аргумент KFold значения имени, Holdout, Leaveout, CrossVal, или CVPartitionИспользование kfoldPredict предсказать ответы для наблюдений это fitrgam протягивает во время обучения. kfoldPredict предсказывает ответ для каждого наблюдения при помощи модели, обученной без того наблюдения.

К ссылочным свойствам Mdl, используйте запись через точку. Например, введите Mdl.Interactions в Командном окне, чтобы отобразить периоды взаимодействия в Mdl.

Больше о

свернуть все

Обобщенная аддитивная модель (GAM) для регрессии

Обобщенная аддитивная модель (GAM) является поддающейся толкованию моделью, которая объясняет переменную отклика с помощью суммы одномерных и двумерных функций формы предикторов.

fitrgam использует повышенное дерево в качестве функции формы для каждого предиктора и, опционально, каждой пары предикторов; поэтому, функция может получить нелинейное отношение между предиктором и переменной отклика. Поскольку вклады отдельных функций формы к предсказанию (значение отклика) хорошо разделяются, модель легко интерпретировать.

Стандартный GAM использует одномерную функцию формы для каждого предиктора.

y~N(μ,σ2)g(μ)=μ=c+f1(x1)+f2(x2)++fp(xp),

где y является переменной отклика, которая следует за нормальным распределением со средним μ и стандартным отклонением σ. g (μ) является единичной функцией ссылки, и c является точкой пересечения (постоянный) термин. fi (xi) является одномерной функцией формы для i th предиктор, который является повышенным деревом для линейного члена для предиктора (дерево предиктора).

Можно включать взаимодействия между предикторами в модели путем добавления двумерных функций формы важных периодов взаимодействия к модели.

μ=c+f1(x1)+f2(x2)++fp(xp)+i,j{1,2,,p}fij(xixj),

где fij (xi xj) является двумерной функцией формы для i th и j th предикторы, который является повышенным деревом в течение периода взаимодействия для предикторов (дерево взаимодействия).

fitrgam находит важные периоды взаимодействия на основе p - значения F - тесты. Для получения дополнительной информации смотрите Обнаружение Периода взаимодействия.

Отклонение

Отклонение является обобщением остаточной суммы квадратов. Это измеряет качество подгонки по сравнению с влажной моделью.

Отклонение подобранной модели является дважды различием между логарифмической правдоподобностью модели и влажной модели:

- 2 (logL - logLs),

где L и Ls являются вероятностями подобранной модели и влажной модели, соответственно. Влажная модель является моделью с максимальным количеством параметров, которые можно оценить.

fitrgam использует отклонение, чтобы измерить совершенство подгонки модели и находит скорость обучения, которая уменьшает отклонение в каждой итерации. Задайте 'Verbose' как 1 или 2, чтобы отобразить отклонение и скорость обучения в Командном окне.

Алгоритмы

свернуть все

Алгоритм повышения градиента

fitrgam подбирает обобщенную аддитивную модель с помощью алгоритма повышения градиента (Повышение Наименьших квадратов).

fitrgam первые наборы сборок деревьев предиктора (повышенные деревья для линейных членов для предикторов) и затем создают наборы деревьев взаимодействия (повышенные деревья в течение многих периодов взаимодействия для предикторов). Повышающий алгоритм выполняет итерации для в большей части 'NumTreesPerPredictor' времена для деревьев предиктора, и затем выполняют итерации для в большей части 'NumTreesPerInteraction' времена для деревьев взаимодействия.

Для каждой повышающей итерации, fitrgam создает набор деревьев предиктора с начальной скоростью обучения 'InitialLearnRateForPredictors', или создает набор деревьев взаимодействия с начальной скоростью обучения 'InitialLearnRateForInteractions'.

  • При создании набора деревьев функция обучает одно дерево за один раз. Это соответствует дереву к невязке, которая является различием между ответом и агрегированным предсказанием от всех деревьев, выращенных ранее. Чтобы контролировать скорость изучения повышения, функция уменьшает дерево скоростью обучения и затем добавляет дерево в модель и обновляет невязку.

    • Обновленная модель = текущая модель + (скорость обучения) · (новое дерево)

    • Обновленная невязка = текущая невязка – (скорость обучения) · (ответ, объясненный новым деревом)

  • Если добавление набора деревьев улучшает подгонку модели (то есть, уменьшает отклонение подгонки), затем fitrgam перемещения к следующей итерации.

  • В противном случае, fitrgam половины скорость обучения и использование это, чтобы обновить модель и невязку. Функция продолжает делить на два скорость обучения, пока это не находит уровень, который улучшает подгонку модели.

    • Если функция не может найти такую скорость обучения для деревьев предиктора, то это прекращает повышать итерации для линейных членов и начинает повышать итерации в течение многих периодов взаимодействия.

    • Если функция не может найти такую скорость обучения для деревьев взаимодействия, то это отключает подбор кривой модели.

    Можно определить, почему обучение зашло в проверку ReasonForTermination свойство обученной модели.

Обнаружение периода взаимодействия

В течение каждого попарного периода взаимодействия xi xj (заданный formula или 'Interactions'), программное обеспечение выполняет F - тест, чтобы исследовать, является ли термин статистически значительным.

Ускорять процесс, fitrgam интервалы числовые предикторы в самое большее 8 равновероятных интервалов. Количество интервалов может быть меньше 8, если предиктор имеет меньше чем 8 уникальных значений. F - тест исследует нулевую гипотезу, что интервалы, созданные xi и xj, имеют равные ответы по сравнению с альтернативой в наименьшем количестве одного интервала, имеет различное значение отклика от других. Маленький p - значение указывает, что различия являются значительными, который подразумевает, что соответствующий период взаимодействия является значительным и, поэтому, включая термин может улучшить подгонку модели.

fitrgam создает набор деревьев взаимодействия, использующих термины, p которых - значения не больше 'MaxPValue' значение. Можно использовать 'MaxPValue' по умолчанию значение 1 создавать деревья взаимодействия, использующие все термины, заданные formula или 'Interactions'.

fitrgam добавляют периоды взаимодействия к модели в порядке важности на основе p - значения. Используйте Interactions свойство возвращенной модели проверять порядок периодов взаимодействия, добавленных к модели.

Ссылки

[1] Лу, Инь, Рич Каруана и Джоханнс Джехрк. "Понятные Модели для Классификации и Регрессии". Продолжения 18-й Международной конференции ACM SIGKDD по вопросам Открытия Знаний и Анализа данных (KDD ’12). Пекин, Китай: Нажатие ACM, 2012, стр 150–158.

[2] Лу, Инь, Рич Каруана, Джоханнс Джехрк и Джайлс Хукер. "Точные Понятные Модели с Попарными Взаимодействиями". Продолжения 19-й Международной конференции ACM SIGKDD по вопросам Открытия Знаний и Анализа данных (KDD ’13) Чикаго, Иллинойс, США: Нажатие ACM, 2013, стр 623–631.

Введенный в R2021a