CompactGeneralizedLinearModel

Пакет: classreg.regr

Компактный обобщенный линейный класс модели регрессии

Описание

CompactGeneralizedLinearModel компактный обобщенный линейный объект модели регрессии. Это использует меньше памяти, чем полная обобщенная линейная модель регрессии (GeneralizedLinearModel) потому что это не хранит данные, используемые, чтобы подбирать модель. Компактная модель не хранит входные данные, таким образом, вы не можете использовать ее, чтобы выполнить определенные задачи. Однако можно использовать компактную обобщенную линейную модель регрессии, чтобы предсказать ответы с помощью новых входных данных.

Подходящие операции (fitlm, fitglm...) автоматически используют компактные объекты, когда вы работаете с длинными массивами. Подходящие операции с таблицами в оперативной памяти и массивами производят полные объекты. Можно использовать compact метод, чтобы сделать их меньшими.

Конструкция

compactMdl = compact(mdl) возвращает компактную обобщенную линейную модель compactMdl регрессии из полной обобщенной линейной модели mdl регрессии. Для получения дополнительной информации смотрите compact.

Входные параметры

развернуть все

Полная обобщенная линейная модель регрессии, заданная как GeneralizedLinearModel объект.

Свойства

развернуть все

Это свойство доступно только для чтения.

Ковариационная матрица содействующих оценок, заданных как p-by-p матрица числовых значений. p является количеством коэффициентов в подобранной модели.

Для получения дополнительной информации смотрите Содействующие Стандартные погрешности и Доверительные интервалы.

Типы данных: single | double

Это свойство доступно только для чтения.

Содействующие имена, заданные как массив ячеек из символьных векторов, каждый содержащий имя соответствующего термина.

Типы данных: cell

Это свойство доступно только для чтения.

Содействующие значения, заданные как таблица. Coefficients содержит одну строку для каждого коэффициента и этих столбцов:

  • Estimate — Предполагаемое содействующее значение

  • SE — Стандартная погрешность оценки

  • tStatt - статистическая величина для теста, что коэффициент является нулем

  • pValuep - значение для t - статистическая величина

Используйте anova (только для модели линейной регрессии) или coefTest выполнять другие тесты на коэффициентах. Используйте coefCI найти доверительные интервалы содействующих оценок.

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку. Например, получите предполагаемый вектор коэффициентов в модели mdl:

beta = mdl.Coefficients.Estimate

Типы данных: table

Это свойство доступно только для чтения.

Отклонение подгонки, заданной как числовое значение. Отклонение полезно для сравнения двух моделей, когда каждый - особый случай другого. Различие между отклонением этих двух моделей имеет распределение хи-квадрат со степенями свободы, равными различию в количестве предполагаемых параметров между этими двумя моделями. Для получения дополнительной информации об отклонении смотрите Отклонение.

Типы данных: single | double

Это свойство доступно только для чтения.

Степени свободы для ошибки (остаточные значения), равняйтесь количеству наблюдений минус количество предполагаемых коэффициентов, заданных как положительное целое число.

Типы данных: double

Это свойство доступно только для чтения.

Масштабный коэффициент отклонения ответа, заданного как числовое значение. Dispersion умножает функцию отклонения для распределения.

Например, функцией отклонения для биномиального распределения является p (1–p)/n, где p является параметром вероятности, и n является параметром объема выборки. Если Dispersion около 1, отклонение данных, кажется, соглашается с теоретическим отклонением биномиального распределения. Если Dispersion больше, чем 1, данные “сверхрассеиваются” относительно биномиального распределения.

Типы данных: double

Это свойство доступно только для чтения.

Отметьте, чтобы указать на использование дисперсионного масштабного коэффициента, заданного как логическое значение. Используйте DispersionEstimated указать ли fitglm используемый Dispersion масштабный коэффициент, чтобы вычислить стандартные погрешности для коэффициентов в Coefficients.SE. Если DispersionEstimated false, затем fitglm используемый теоретическое значение отклонения.

  • DispersionEstimated может быть false только для 'binomial' или 'poisson' распределения.

  • Установить DispersionEstimated, установите DispersionFlag пара "имя-значение" в fitglm.

Типы данных: логический

Это свойство доступно только для чтения.

Обобщенная информация распределения, указанная как структура со следующими полями, относящимися к обобщенному распределению.

Поле Описание
NameИмя распределения. Опции: 'normal', 'binomial', 'poisson'\Gamma, или 'inverse gaussian'.
DevianceFunctionФункция, которая вычисляет компоненты отклонения как функция подходящих значений параметров и значений ответа.
VarianceFunctionФункция, которая вычисляет теоретическое отклонение для распределения как функция подходящих значений параметров. Когда DispersionEstimated true, Dispersion умножает функцию отклонения в расчете содействующих стандартных погрешностей.

Типы данных: struct

Это свойство доступно только для чтения.

Информация модели, указанная как LinearFormula объект.

Отобразите формулу подобранной модели mdl использование записи через точку:

mdl.Formula

Это свойство доступно только для чтения.

Регистрируйте вероятность распределения модели в значениях ответа, заданных как числовое значение. Среднее значение адаптировано из модели, и другие параметры оцениваются как часть подгонки модели.

Типы данных: single | double

Это свойство доступно только для чтения.

Критерий сравнения модели, заданного как структура с этими полями:

  • AIC — Критерий информации о Akaike.     AIC = –2*logL + 2*m, где logL логарифмическая правдоподобность и m количество предполагаемых параметров.

  • AICc — Критерий информации о Akaike откорректирован для объема выборки.     AICc = AIC + (2*m*(m+1))/(n–m–1), где n количество наблюдений.

  • BIC — Байесов информационный критерий.     BIC = –2*logL + m*log(n).

  • CAIC — Сопоставимый информационный критерий Akaike.     CAIC = –2*logL + m*(log(n)+1).

Информационные критерии являются инструментами выбора модели, которые можно использовать, чтобы сравнить подгонку многоуровневых моделей к тем же данным. Эти критерии являются основанными на вероятности мерами подгонки модели, которые включают штраф за сложность (а именно, количество параметров). Различные информационные критерии отличает форма штрафа.

Когда вы сравниваете многоуровневые модели, модель с самым низким информационным значением критерия является моделью оптимальной подгонки. Модель оптимальной подгонки может варьироваться в зависимости от критерия, используемого в сравнении модели.

Чтобы получить любое из значений критерия как скаляр, индексируйте в свойство с помощью записи через точку. Например, получите значение AIC aic в модели mdl:

aic = mdl.ModelCriterion.AIC

Типы данных: struct

Это свойство доступно только для чтения.

Количество коэффициентов модели, заданных как положительное целое число. NumCoefficients включает коэффициенты, которые обнуляются, когда условия модели имеют неполный ранг.

Типы данных: double

Это свойство доступно только для чтения.

Количество предполагаемых коэффициентов в модели, заданной как положительное целое число. NumEstimatedCoefficients не включает коэффициенты, которые обнуляются, когда условия модели имеют неполный ранг. NumEstimatedCoefficients степени свободы для регрессии.

Типы данных: double

Это свойство доступно только для чтения.

Количество наблюдений подходящая функция, используемая в подборе кривой, заданном как положительное целое число. NumObservations количество наблюдений, предоставленных в исходной таблице, наборе данных или матрице, минус любые исключенные строки (набор с 'Exclude' аргумент пары "имя-значение") или строки с отсутствующими значениями.

Типы данных: double

Это свойство доступно только для чтения.

Количество переменных предикторов раньше подбирало модель, заданную как положительное целое число.

Типы данных: double

Это свойство доступно только для чтения.

Количество переменных во входных данных, заданных как положительное целое число. NumVariables количество переменных в исходной таблице или наборе данных или общем количестве столбцов в матрице предиктора и векторе отклика.

NumVariables также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: double

Это свойство доступно только для чтения.

Имена предикторов раньше подбирали модель, заданную как массив ячеек из символьных векторов.

Типы данных: cell

Это свойство доступно только для чтения.

Имя переменной отклика, заданное как вектор символов.

Типы данных: char

Это свойство доступно только для чтения.

Значение R-squared для модели, заданной как структура с пятью полями:

  • Ordinary — Обычный (неприспособленный) R-squared

  • Adjusted — R-squared, настроенный для количества коэффициентов

  • LLR — Отношение логарифмической правдоподобности

  • Deviance — Отклонение

  • AdjGeneralized — Настроенный обобщил R-squared

Значение R-squared является пропорцией полной суммы квадратов, объясненных моделью. Обычное значение R-squared относится к SSR и SST свойства:

Rsquared = SSR/SST = 1 - SSE/SST.

Чтобы получить любое из этих значений как скаляр, индексируйте в свойство с помощью записи через точку. Например, настроенное значение R-squared в mdl

r2 = mdl.Rsquared.Adjusted

Типы данных: struct

Это свойство доступно только для чтения.

Сумма квадратичных невязок (остаточные значения), заданные как числовое значение.

Теорема Пифагора подразумевает

SST = SSE + SSR,

где SST полная сумма квадратов, SSE сумма квадратичных невязок и SSR сумма квадратов регрессии.

Типы данных: single | double

Это свойство доступно только для чтения.

Сумма квадратов регрессии, заданная как числовое значение. Сумма квадратов регрессии равна сумме отклонений в квадрате подходящих значений от их среднего значения.

Теорема Пифагора подразумевает

SST = SSE + SSR,

где SST полная сумма квадратов, SSE сумма квадратичных невязок и SSR сумма квадратов регрессии.

Типы данных: single | double

Это свойство доступно только для чтения.

Полная сумма квадратов, заданных как числовое значение. Полная сумма квадратов равна сумме отклонений в квадрате вектора отклика y от mean(y).

Теорема Пифагора подразумевает

SST = SSE + SSR,

где SST полная сумма квадратов, SSE сумма квадратичных невязок и SSR сумма квадратов регрессии.

Типы данных: single | double

Это свойство доступно только для чтения.

Информация о переменных содержится в Variables, заданный, когда таблица с одной строкой для каждой переменной и столбцов описана в этой таблице.

СтолбецОписание
ClassПеременный класс, заданный как массив ячеек из символьных векторов, такой как 'double' и 'categorical'
Range

Переменный диапазон, указанный как массив ячеек векторов

  • Непрерывная переменная — Двухэлементный вектор [minMax ], минимальные и максимальные значения

  • Категориальная переменная — Вектор отличных значений переменных

InModelИндикатор которого переменные находятся в подобранной модели, заданной как логический вектор. Значением является true если модель включает переменную.
IsCategoricalИндикатор категориальных переменных, заданных как логический вектор. Значением является true если переменная является категориальной.

VariableInfo также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: table

Это свойство доступно только для чтения.

Имена переменных, заданных как массив ячеек из символьных векторов.

  • Если подгонка основана на таблице или наборе данных, это свойство обеспечивает имена переменных в таблице или наборе данных.

  • Если подгонка основана на матрице предиктора и векторе отклика, VariableNames содержит значения, заданные 'VarNames' аргумент пары "имя-значение" подходящего метода. Значение по умолчанию 'VarNames' {'x1','x2',...,'xn','y'}.

VariableNames также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: cell

Методы

coefCIДоверительные интервалы содействующих оценок обобщенной линейной модели
coefTestЛинейный тест гипотезы на обобщенных линейных коэффициентах модели регрессии
devianceTestАнализ отклонения
dispОтобразите обобщенную линейную модель регрессии
fevalОцените обобщенный линейный прогноз модели регрессии
plotSliceГрафик срезов через подходящую обобщенную линейную поверхность регрессии
предсказатьПредскажите ответ обобщенной линейной модели регрессии
случайныйСимулируйте ответы для обобщенной линейной модели регрессии

Копировать семантику

Значение. Чтобы изучить, как классы значения влияют на операции копии, смотрите Копирование Объектов (MATLAB).

Примеры

свернуть все

Уменьшайте размер полной, подбиравшей обобщенной линейной модели регрессии путем отбрасывания выборочных данных и некоторой информации, связанной с подходящим процессом.

Загрузите данные в рабочую область. Симулированные выборочные данные содержат 15 000 наблюдений и 45 переменных предикторов.

load(fullfile(matlabroot,'examples','stats','largedata4reg.mat'))

Подбирайте обобщенную линейную модель регрессии к данным с помощью первых 15 переменных предикторов.

mdl = fitglm(X(:,1:15),Y)
mdl = 
Generalized linear regression model:
    y ~ [Linear formula with 16 terms in 15 predictors]
    Distribution = Normal

Estimated Coefficients:
                    Estimate          SE         tStat       pValue   
                   ___________    __________    _______    ___________

    (Intercept)         3.2903    0.00010447      31497              0
    x1              -0.0006461    4.9991e-08     -12924              0
    x2             -0.00024739    8.6874e-08    -2847.7              0
    x3             -9.5161e-05    1.1138e-07    -854.38              0
    x4              0.00013143     1.551e-07     847.35              0
    x5               7.163e-05    1.9793e-07      361.9              0
    x6              4.5064e-06    2.2247e-07     20.257     4.9539e-90
    x7             -2.6258e-05    2.5462e-07    -103.13              0
    x8               6.284e-05    2.5633e-07     245.15              0
    x9             -0.00014288     2.817e-07    -507.19              0
    x10            -2.2642e-05    3.0963e-07    -73.127              0
    x11            -6.0227e-05    3.1639e-07    -190.36              0
    x12             1.1665e-05    3.3921e-07     34.388    1.6995e-249
    x13             3.8595e-05    3.5601e-07     108.41              0
    x14             0.00010021    4.0312e-07     248.57              0
    x15            -6.5674e-06    4.1692e-07    -15.752      1.844e-55


15000 observations, 14984 error degrees of freedom
Estimated Dispersion: 0.000164
F-statistic vs. constant model: 1.18e+07, p-value = 0

Уплотните модель. Компактная модель отбрасывает исходные выборочные данные и некоторую информацию, связанную с подходящим процессом, таким образом, это использует меньше памяти, чем полная модель.

compactMdl = compact(mdl)
compactMdl = 
Compact generalized linear regression model:
    y ~ [Linear formula with 16 terms in 15 predictors]
    Distribution = Normal

Estimated Coefficients:
                    Estimate          SE         tStat       pValue   
                   ___________    __________    _______    ___________

    (Intercept)         3.2903    0.00010447      31497              0
    x1              -0.0006461    4.9991e-08     -12924              0
    x2             -0.00024739    8.6874e-08    -2847.7              0
    x3             -9.5161e-05    1.1138e-07    -854.38              0
    x4              0.00013143     1.551e-07     847.35              0
    x5               7.163e-05    1.9793e-07      361.9              0
    x6              4.5064e-06    2.2247e-07     20.257     4.9539e-90
    x7             -2.6258e-05    2.5462e-07    -103.13              0
    x8               6.284e-05    2.5633e-07     245.15              0
    x9             -0.00014288     2.817e-07    -507.19              0
    x10            -2.2642e-05    3.0963e-07    -73.127              0
    x11            -6.0227e-05    3.1639e-07    -190.36              0
    x12             1.1665e-05    3.3921e-07     34.388    1.6995e-249
    x13             3.8595e-05    3.5601e-07     108.41              0
    x14             0.00010021    4.0312e-07     248.57              0
    x15            -6.5674e-06    4.1692e-07    -15.752      1.844e-55


15000 observations, 14984 error degrees of freedom
Estimated Dispersion: 0.000164
F-statistic vs. constant model: 1.18e+07, p-value = 0

Расширенные возможности

Введенный в R2017b