CompactGeneralizedLinearModel

Компактный обобщенный класс линейной регрессионой модели

Описание

CompactGeneralizedLinearModel является компактной версией полного обобщенного объекта линейной регрессионой модели GeneralizedLinearModel. Поскольку компактная модель не хранит входные данные, используемые для соответствия модели, или информацию, относящуюся к процессу аппроксимации, CompactGeneralizedLinearModel объект потребляет меньше памяти, чем GeneralizedLinearModel объект. Вы все еще можете использовать компактную модель для предсказания откликов с помощью новых входных данных, но некоторых GeneralizedLinearModel функции объекта не работают с компактной моделью.

Создание

Создайте CompactGeneralizedLinearModel модель из полного, обученного GeneralizedLinearModel моделировать при помощи compact.

fitglm возвращает CompactGeneralizedLinearModel когда вы работаете с длинными массивами и возвращаете GeneralizedLinearModel при работе с таблицами в оперативной памяти и массивами.

Свойства

расширить все

Оценки коэффициентов

Это свойство доступно только для чтения.

Ковариационная матрица оценок коэффициентов, заданная в виде p -by - p матрицы числовых значений. p - количество коэффициентов в подобранной модели.

Для получения дополнительной информации см. «Стандартные ошибки коэффициентов и доверительные интервалы».

Типы данных: single | double

Это свойство доступно только для чтения.

Имена коэффициентов, заданные как массив ячеек из векторов символов, каждый из которых содержит имя соответствующего термина.

Типы данных: cell

Это свойство доступно только для чтения.

Значения коэффициентов, заданные как таблица. Coefficients содержит по одной строке для каждого коэффициента и следующих столбцов:

  • Estimate - Расчетное значение коэффициента

  • SE - Стандартная ошибка оценки

  • tStat - t -статистический для теста, что коэффициент равен нулю

  • pValue - p -value для t -statistic

Использовать anova (только для линейной регрессионой модели) или coefTest для выполнения других тестов коэффициентов. Использовать coefCI чтобы найти доверительные интервалы оценок коэффициентов.

Чтобы получить любой из этих столбцов в качестве вектора, индексируйте в свойство с помощью записи через точку. Для примера получите вектор оцененного коэффициента в модели mdl:

beta = mdl.Coefficients.Estimate

Типы данных: table

Это свойство доступно только для чтения.

Количество коэффициентов модели, заданное как положительное целое число. NumCoefficients включает коэффициенты, которые установлены в нуль, когда члены модели неполного ранга.

Типы данных: double

Это свойство доступно только для чтения.

Количество оцененных коэффициентов в модели, заданное в виде положительного целого числа. NumEstimatedCoefficients не включает коэффициенты, которые равны нулю, когда члены модели неполного ранга. NumEstimatedCoefficients - степени свободы для регрессии.

Типы данных: double

Итоговая статистика

Это свойство доступно только для чтения.

Отклонение подгонки, заданное в виде числового значения. Отклонение полезно для сравнения двух моделей, когда одна модель является частным случаем другой модели. Различие между отклонением двух моделей имеет хи-квадратное распределение со степенями свободы, равными различиями в количестве предполагаемых параметров между этими двумя моделями. Для получения дополнительной информации см. «Отклонение».

Типы данных: single | double

Это свойство доступно только для чтения.

Степени свободы для ошибки (невязки), равные количеству наблюдений минус количество оцененных коэффициентов, заданное в виде положительного целого числа.

Типы данных: double

Это свойство доступно только для чтения.

Шкала коэффициент отклонения отклика, заданный как числовой скаляр.

Если на 'DispersionFlag' Аргумент пары "имя-значение" из fitglm или stepwiseglm является true, затем функция оценивает Dispersion масштабный коэффициент при вычислении отклонения отклика. Отклонение отклика равно теоретическому отклонению, умноженной на масштабный коэффициент.

Например, функция отклонения для биномиального распределения является p (1- p )/ n, где p является параметром вероятности, а n является параметром размера выборки. Если Dispersion близок 1Отклонение данных, по-видимому, согласуется с теоретическим отклонением биномиального распределения. Если Dispersion больше 1, набор данных «чрезмерно диспергирован» относительно биномиального распределения.

Типы данных: double

Это свойство доступно только для чтения.

Флаг, указывающий, fitglm использовали Dispersion масштабный коэффициент для вычисления стандартных ошибок для коэффициентов в Coefficients.SE, заданный как логическое значение. Если DispersionEstimated является false, fitglm использовали теоретическое значение отклонения.

  • DispersionEstimated можно false только для биномиальных и пуассоновских распределений.

  • Задайте DispersionEstimated путем установки 'DispersionFlag' Аргумент пары "имя-значение" из fitglm или stepwiseglm.

Типы данных: logical

Это свойство доступно только для чтения.

Логарифмическая правдоподобность распределения модели в значениях отклика, заданная в виде числового значения. Среднее значение подгоняется из модели, а другие параметры оцениваются как часть подгонки.

Типы данных: single | double

Это свойство доступно только для чтения.

Критерий сравнения моделей, заданный как структура с этими полями:

  • AIC - информационный критерий Акайке.     AIC = –2*logL + 2*m, где logL - логарифмическая правдоподобность и m - количество предполагаемых параметров.

  • AICc - информационный критерий Akaike скорректирован для размера выборки.     AICc = AIC + (2*m*(m + 1))/(n – m – 1), где n количество наблюдений.

  • BIC - байесовский информационный критерий.     BIC = –2*logL + m*log(n).

  • CAIC - Согласованный информационный критерий Акайке.     CAIC = –2*logL + m*(log(n) + 1).

Информационные критерии являются инструментами выбора модели, которые можно использовать, чтобы сравнить несколько моделей, подгоняемых к одним и тем же данным. Эти критерии являются основанными на вероятностях показателями подгонки модели, которые включают штраф за сложность (в частности, количество параметров). Различные информационные критерии различаются формой штрафа.

Когда вы сравниваете несколько моделей, модель с самым низким значением информационного критерия является наиболее подходящей моделью. Наиболее подходящая модель может варьироваться в зависимости от критерия, используемого для сравнения модели.

Чтобы получить любое из значений критерия в виде скаляра, индексируйте в свойство с помощью записи через точку. Для примера получите значение AIC aic в mdl модели:

aic = mdl.ModelCriterion.AIC

Типы данных: struct

Это свойство доступно только для чтения.

R-квадрат значения для модели, заданный как структура с пятью полями.

ОбластьОписаниеУравнение
OrdinaryОбыкновенный (нескорректированный) R-квадрат

ROrdinary2=1SSESST

SSE - сумма квадратичных невязок, и SST - общая сумма квадратов отклонений вектора отклика от среднего значения вектора отклика.

AdjustedR-квадрат скорректирован для количества коэффициентов

RAdjusted2=1SSESSTN1DFE

N - количество наблюдений (NumObservations), и DFE - степени свободы для ошибки (невязки).

LLRЛогарифмическая правдоподобность

RLLR2=1LL0

L - логарифмическая правдоподобность подобранной модели (LogLikelihood), и L0 является логарифмической правдоподобностью модели, которая включает только постоянный термин. R2LLR является псевдоквадратичным значением Макфаддена [1] для логистических регрессионых моделей.

DevianceОтклонение R-квадрат

RDeviance2=1DD0

D является отклонением подобранной модели (Deviance), и D0 является отклонением модели, которая включает только постоянный термин.

AdjGeneralizedСкорректированный обобщенный R-квадрат

RAdjGeneralized2=1exp(2(L0L)N)1exp(2L0N)

R2AddGeneralized является корректировкой Нагелкерке [2] к формуле, предложенной Maddala [3], Коксом и Снеллом [4] и Magee [5] для логистических регрессионых моделей.

Чтобы получить любое из этих значений в виде скаляра, индексируйте в свойство с помощью записи через точку. Для примера получить скорректированное значение R-квадрат в модели mdl, введите:

r2 = mdl.Rsquared.Adjusted

Типы данных: struct

Это свойство доступно только для чтения.

Сумма квадратичных невязок (остатков), заданная в виде числового значения.

Типы данных: single | double

Это свойство доступно только для чтения.

Регрессионная сумма квадратов, заданная в виде числового значения. Регрессионная сумма квадратов равна сумме квадратов отклонений подобранных значений от их среднего.

Типы данных: single | double

Это свойство доступно только для чтения.

Общая сумма квадратов, заданная в виде числового значения. Общая сумма квадратов равна сумме квадратов отклонений вектора отклика y от mean(y).

Типы данных: single | double

Входные данные

Это свойство доступно только для чтения.

Обобщенная информация о распределении, заданная как структура с полями, описанными в этой таблице.

ОбластьОписание
NameИмя распределения: 'normal', 'binomial', 'poisson', 'gamma', или 'inverse gaussian'
DevianceFunctionФункция, которая вычисляет компоненты отклонения как функцию от установленных значений параметров и значений отклика
VarianceFunctionФункция, которая вычисляет теоретическое отклонение для распределения как функцию от подобранных значений параметров. Когда DispersionEstimated является trueпрограммное обеспечение умножает функцию отклонения на Dispersion при расчете стандартных ошибок коэффициентов.

Типы данных: struct

Это свойство доступно только для чтения.

Информация о модели, заданная как LinearFormula объект.

Отобразите формулу подобранной модели mdl использование записи через точку:

mdl.Formula

Это свойство доступно только для чтения.

Количество наблюдений функции аппроксимации, используемой в подборе кривой, заданное в виде положительного целого числа. NumObservations - количество наблюдений, представленных в исходной таблице, наборе данных или матрице, минус любые исключенные строки (заданные с 'Exclude' аргумент пары "имя-значение") или строки с отсутствующими значениями.

Типы данных: double

Это свойство доступно только для чтения.

Количество переменных предиктора, используемых для подгонки модели, заданное в виде положительного целого числа.

Типы данных: double

Это свойство доступно только для чтения.

Количество переменных во входных данных, заданное как положительное целое число. NumVariables - количество переменных в исходной таблице или наборе данных или общее количество столбцов в матрице предиктора и векторе отклика.

NumVariables также включает любые переменные, которые не используются для подгонки модели в качестве предикторов или в качестве отклика.

Типы данных: double

Это свойство доступно только для чтения.

Имена предикторов, используемых для подгонки модели, заданные как массив ячеек из векторов символов.

Типы данных: cell

Это свойство доступно только для чтения.

Имя переменной отклика, заданное как вектор символов.

Типы данных: char

Это свойство доступно только для чтения.

Информация о переменных, содержащихся в Variables, заданная как таблица с одной строкой для каждой переменной и столбцами, описанными в этой таблице.

СтолбецОписание
ClassКласс переменной, заданный как массив ячеек из векторов символов, таких как 'double' и 'categorical'
Range

Переменная область значений, заданная как массив ячеек из векторов

  • Непрерывная переменная - Двухэлементный вектор [min, max], минимальное и максимальное значения

  • Категориальная переменная - Вектор различных значений переменных

InModelИндикатор того, какие переменные находятся в подобранной модели, заданный как логический вектор. Значение true если модель включает переменную.
IsCategoricalИндикатор категориальных переменных, заданный как логический вектор. Значение true если переменная категориальна.

VariableInfo также включает любые переменные, которые не используются для подгонки модели в качестве предикторов или в качестве отклика.

Типы данных: table

Это свойство доступно только для чтения.

Имена переменных, заданные как массив ячеек из векторов символов.

  • Если подгонка основана на таблице или наборе данных, это свойство задает имена переменных в таблице или наборе данных.

  • Если подгонка основана на матрице предиктора и векторе отклика, VariableNames содержит значения, заданные в 'VarNames' Аргумент пары "имя-значение" способа аппроксимации. Значение по умолчанию 'VarNames' является {'x1','x2',...,'xn','y'}.

VariableNames также включает любые переменные, которые не используются для подгонки модели в качестве предикторов или в качестве отклика.

Типы данных: cell

Функции объекта

расширить все

fevalСпрогнозируйте отклики обобщенной линейной регрессионой модели, используя один вход для каждого предиктора
predictПредсказать отклики обобщенной линейной регрессионой модели
randomСимулируйте отклики со случайным шумом для обобщенной линейной регрессионой модели
coefCIДоверительные интервалы оценок коэффициентов обобщенной линейной регрессионой модели
coefTestЛинейный тест гипотезы на обобщенных коэффициентах линейной регрессионой модели
devianceTestАнализ отклонения для обобщенной линейной регрессионой модели
partialDependenceВычисление частичной зависимости
plotPartialDependenceСоздайте график частичной зависимости (PDP) и отдельные графики условного ожидания (ICE)
plotSliceГрафик срезов через подобранную обобщенную линейную регрессионую поверхность
gatherСбор свойств модели машинного обучения с графический процессор

Примеры

свернуть все

Подгонка обобщенной линейной регрессионной модели к данным и уменьшение размера полной, подобранной модели путем отброса выборочных данных и некоторой информации, связанной с процессом подгонки.

Загрузите largedata4reg набор данных, который содержит 15 000 наблюдений и 45 переменные.

load largedata4reg

Подгонка обобщенной линейной регрессионой модели к данным с помощью первых 15 переменных предиктора.

mdl = fitglm(X(:,1:15),Y);

Компактность модели.

compactMdl = compact(mdl);

Компактная модель отбрасывает исходные выборочные данные и некоторую информацию, связанную с процессом подгонки, поэтому она использует меньше памяти, чем полная модель.

Сравните размер полной модели mdl и компактную модель compactMdl.

vars = whos('compactMdl','mdl');
[vars(1).bytes,vars(2).bytes]
ans = 1×2

       15517     4382500

Компактная модель потребляет меньше памяти, чем полная модель.

Подробнее о

расширить все

Ссылки

[1] Макфадден, Дэниел. «Условный логит-анализ качественного поведения выбора». в Frontiers in Econometrics, под редакцией П. Zarembka,105-42. Нью-Йорк: Академическая пресса, 1974.

[2] Нагелкерке, Н. Дж. Д. «Примечание к общему определению коэффициента детерминации». Биометрика 78, № 3 (1991): 691-92.

[3] Maddala, Gangadharrao S. Ограниченно-зависимые и качественные переменные в эконометрике. Монографии эконометрического общества. Нью-Йорк, Нью-Йорк: Cambridge University Press, 1983.

[4] Кокс, Д. Р. и Э. Дж. Снелл. Анализ двоичных данных. 2-е изд. Монографии по статистике и прикладной вероятности 32. Лондон; Нью-Йорк: Чапман и Холл, 1989.

[5] Мэги, Лонни. «Меры R 2, основанные на тестах совместного значения коэффициента вероятности и Вальда». Американский статистик 44, № 3 (август 1990): 250-53.

Расширенные возможности

.
Введенный в R2016b