CompactGeneralizedLinearModel

Класс модели компактной обобщенной линейной регрессии

Описание

CompactGeneralizedLinearModel является компактной версией полного обобщенного объекта модели линейной регрессии GeneralizedLinearModel. Поскольку компактная модель не хранит входные данные, используемые для соответствия модели или информации, связанной с процессом фитинга, CompactGeneralizedLinearModel объект потребляет меньше памяти, чем GeneralizedLinearModel объект. Вы по-прежнему можете использовать компактную модель для прогнозирования ответов с использованием новых входных данных, но некоторые GeneralizedLinearModel функции объекта не работают с компактной моделью.

Создание

Создать CompactGeneralizedLinearModel модель из полной, обученной GeneralizedLinearModel модель с использованием compact.

fitglm прибыль CompactGeneralizedLinearModel при работе с массивами tall и возвращает GeneralizedLinearModel при работе с таблицами и массивами в памяти.

Свойства

развернуть все

Оценки коэффициентов

`CoefficientCovariance` - Ковариационная матрица оценок коэффициентов
числовая матрица

Это свойство доступно только для чтения.

Ковариационная матрица оценок коэффициентов, заданная как p-by-p матрица числовых значений. p - число коэффициентов в подгоняемой модели.

Дополнительные сведения см. в разделе Стандартные ошибки коэффициентов и доверительные интервалы.

Типы данных: single | double

`CoefficientNames` - Наименования коэффициентов
массив ячеек символьных векторов

Это свойство доступно только для чтения.

Имена коэффициентов, определяемые как массив ячеек символьных векторов, каждый из которых содержит имя соответствующего члена.

Типы данных: cell

`Coefficients` - Значения коэффициентов
стол

Это свойство доступно только для чтения.

Значения коэффициентов, указанные как таблица. Coefficients содержит одну строку для каждого коэффициента и следующие столбцы:

Estimate - Расчетное значение коэффициента
SE - Стандартная погрешность оценки
tStat - t-статистика для теста, что коэффициент равен нулю
pValue - p-значение для t-статистики

Использовать anova (только для модели линейной регрессии) или coefTest для выполнения других тестов коэффициентов. Использовать coefCI для нахождения доверительных интервалов оценок коэффициентов.

Чтобы получить любой из этих столбцов в виде вектора, выполните индексирование в свойство с помощью точечной нотации. Например, получить оцененный вектор коэффициентов в модели mdl:

beta = mdl.Coefficients.Estimate

Типы данных: table

`NumCoefficients` - Количество коэффициентов модели
положительное целое число

Это свойство доступно только для чтения.

Число коэффициентов модели, указанное как положительное целое число. NumCoefficients включает в себя коэффициенты, которые устанавливаются равными нулю, когда модельные члены имеют недостаток ранга.

Типы данных: double

`NumEstimatedCoefficients` - Количество расчетных коэффициентов
положительное целое число

Это свойство доступно только для чтения.

Количество расчетных коэффициентов в модели, указанное как положительное целое число. NumEstimatedCoefficients не включает коэффициенты, которые установлены в нуль, когда модельные члены имеют недостаточный ранг. NumEstimatedCoefficients - степени свободы для регрессии.

Типы данных: double

Сводная статистика

`Deviance` - Отклонение подгонки
числовое значение

Это свойство доступно только для чтения.

Отклонение аппроксимации, определяемое как числовое значение. Отклонение полезно для сравнения двух моделей, когда одна модель является частным случаем другой модели. Разница между отклонениями двух моделей имеет распределение хи-квадрат со степенями свободы, равными разнице в количестве оцениваемых параметров между двумя моделями. Дополнительные сведения см. в разделе Отклонение.

Типы данных: single | double

`DFE` - Степени свободы для ошибки
положительное целое число

Это свойство доступно только для чтения.

Степени свободы для ошибки (остатки), равные количеству наблюдений минус число оцененных коэффициентов, указанных как положительное целое число.

Типы данных: double

`Dispersion` - Масштабный коэффициент дисперсии отклика
числовой скаляр

Это свойство доступно только для чтения.

Масштабный коэффициент дисперсии отклика, определяемый как числовой скаляр.

Если 'DispersionFlag' аргумент пары имя-значение fitglm или stepwiseglm является true, то функция оценивает Dispersion масштабный коэффициент при вычислении дисперсии отклика. Дисперсия отклика равна теоретической дисперсии, умноженной на масштабный коэффициент.

Например, функция дисперсии для биномиального распределения равна p (1-p )/n, где p - параметр вероятности, а n - параметр размера выборки. ЕслиDispersion находится рядом 1, дисперсия данных, по-видимому, согласуется с теоретической дисперсией биномиального распределения. Если Dispersion больше, чем 1набор данных «избыточно распределен» относительно биномиального распределения.

Типы данных: double

`DispersionEstimated` - Флаг для обозначения использования масштабного коэффициента дисперсии
логическое значение

Это свойство доступно только для чтения.

Флаг, указывающий, fitglm использовал Dispersion масштабный коэффициент для вычисления стандартных ошибок для коэффициентов в Coefficients.SE, указано как логическое значение. Если DispersionEstimated является false, fitglm использовал теоретическое значение дисперсии.

DispersionEstimated может быть false только для биномиального распределения и распределения Пуассона.
Набор DispersionEstimated путем установки 'DispersionFlag' аргумент пары имя-значение fitglm или stepwiseglm.

Типы данных: logical

`LogLikelihood` - Средства к существованию
числовое значение

Это свойство доступно только для чтения.

Логарифмическое значение распределения модели при значениях ответа, указанных как числовое значение. Среднее значение подгоняется по модели, а другие параметры оцениваются как часть подгонки модели.

Типы данных: single | double

`ModelCriterion` - Критерий сравнения моделей
структура

Это свойство доступно только для чтения.

Критерий сравнения моделей, указанный как структура со следующими полями:

AIC - информационный критерий Акаике. AIC = –2*logL + 2*m, где logL является источником средств к существованию и m - количество оцениваемых параметров.
AICc - информационный критерий Akaike с поправкой на размер выборки. AICc = AIC + (2*m*(m + 1))/(n – m – 1), где n - количество наблюдений.
BIC - байесовский информационный критерий. BIC = –2*logL + m*log(n).
CAIC - Согласованный информационный критерий Акаике. CAIC = –2*logL + m*(log(n) + 1).

Информационные критерии - это инструменты выбора моделей, которые можно использовать для сравнения нескольких моделей, соответствующих одним и тем же данным. Эти критерии являются основанными на правдоподобии показателями соответствия модели, которые включают штраф за сложность (в частности, количество параметров). По форме наказания различают различные информационные критерии.

При сравнении нескольких моделей модель с наименьшим значением информационного критерия является наиболее подходящей моделью. Наиболее подходящая модель может варьироваться в зависимости от критерия, используемого для сравнения модели.

Чтобы получить любое из значений критерия в виде скаляра, проиндексируйте свойство с помощью точечной нотации. Например, получить значение AIC aic в модели mdl:

aic = mdl.ModelCriterion.AIC

Типы данных: struct

`Rsquared` - R-квадрат для модели
структура

Это свойство доступно только для чтения.

Значение R-квадрата для модели, указанное как структура с пятью полями.

Область	Описание	Уравнение
`Ordinary`	Обыкновенный (нескорректированный) R-квадрат	$_{}^{ROrdinary2} = \frac{1 −}{}$ SSESST `SSE` - сумма квадратичных ошибок, и `SST` - общая сумма квадратичных отклонений вектора отклика от среднего значения вектора отклика.
`Adjusted`	R-квадрат, скорректированный на количество коэффициентов	$_{}^{} \frac{}{} \frac{}{RAdjusted2=1−SSESST⋅N−1DFE}$ N - количество наблюдений (`NumObservations`), и `DFE` - степени свободы для ошибки (остатки).
`LLR`	Соотношение средств к существованию	$_{}^{} \frac{}{_{RLLR2=1−LL0}}$ L является логическим признаком подогнанной модели (`LogLikelihood`), и _L0 является средством к существованию модели, которая включает только постоянный термин. ^R2LLR - псевдо-R-квадрат Макфаддена [1] для моделей логистической регрессии.
`Deviance`	Девианс R-квадрат	$_{}^{} \frac{}{_{RDeviance2=1−DD0}}$ D - отклонение подогнанной модели (`Deviance`), и _D0 является отклонением модели, которая включает только постоянный член.
`AdjGeneralized`	Скорректированный обобщенный R-квадрат	$_{}^{RAdjGeneralized2} \frac{= 1 − \frac{\exp_{} (2}{(}}{L0 − L) \frac{N_{)}}{} 1}$ − exp (2L0N) ^{R2AdjGeneralized} - корректировка Нагелькерке [2] на формулу, предложенную Маддалой [3], Коксом и Снеллом [4], и Маги [5] для моделей логистической регрессии.

Чтобы получить любое из этих значений в виде скаляра, проиндексируйте свойство с помощью точечной нотации. Например, для получения скорректированного значения R-квадрата в модели mdl, введите:

r2 = mdl.Rsquared.Adjusted

Типы данных: struct

`SSE` - Сумма квадратичных ошибок
числовое значение

Это свойство доступно только для чтения.

Сумма квадратичных ошибок (остатков), заданная как числовое значение.

Типы данных: single | double

`SSR` - Регрессионная сумма квадратов
числовое значение

Это свойство доступно только для чтения.

Регрессионная сумма квадратов, заданная как числовое значение. Сумма регрессии квадратов равна сумме квадратичных отклонений аппроксимируемых значений от их среднего значения.

Типы данных: single | double

`SST` - Общая сумма квадратов
числовое значение

Это свойство доступно только для чтения.

Общая сумма квадратов, заданная как числовое значение. Общая сумма квадратов равна сумме квадратичных отклонений вектора отклика y от mean(y).

Типы данных: single | double

Входные данные

`Distribution` - Обобщенная информация о распределении
структура

Это свойство доступно только для чтения.

Обобщенная информация о распределении, указанная как структура с полями, описанными в этой таблице.

Область	Описание
`Name`	Название дистрибутива: `'normal'`, `'binomial'`, `'poisson'`, `'gamma'`, или `'inverse gaussian'`
`DevianceFunction`	Функция, которая вычисляет компоненты отклонения как функцию от заданных значений параметров и значений отклика
`VarianceFunction`	Функция, которая вычисляет теоретическую дисперсию для распределения как функцию от аппроксимированных значений параметров. Когда `DispersionEstimated` является `true`, программное обеспечение умножает функцию дисперсии на `Dispersion` при вычислении стандартных ошибок коэффициентов.

Типы данных: struct

`Formula` - Информация о модели
`LinearFormula` объект

Это свойство доступно только для чтения.

Информация о модели, указанная как LinearFormula объект.

Отображение формулы подогнанной модели mdl с использованием точечной нотации:

mdl.Formula

`Link` - Функция связи
структура

Это свойство доступно только для чтения.

Функция связи, заданная как структура с полями, описанными в этой таблице.

Область	Описание
`Name`	Имя функции связи, указанное как символьный вектор. Если функция связи задается с помощью дескриптора функции, то `Name` является `''`.
`Link`	Функция f, определяющая функцию связи, заданную как дескриптор функции
`Derivative`	Производная от f, указанная как дескриптор функции
`Inverse`	Обратная f, заданная как дескриптор функции

Функция линии связи представляет собой функцию f, которая связывает параметр β распределения с аппроксимированной линейной комбинацией Xb предикторов:

f (λ) = Xb.

Типы данных: struct

`NumObservations` - Количество наблюдений
положительное целое число

Это свойство доступно только для чтения.

Число наблюдений функции фитинга, используемой в фитинге, указанное как положительное целое число. NumObservations - количество наблюдений, предоставленных в исходной таблице, наборе данных или матрице, за вычетом всех исключенных строк (задано с помощью 'Exclude' аргумент пары имя-значение) или строки с отсутствующими значениями.

Типы данных: double

`NumPredictors` - Количество переменных предиктора
положительное целое число

Это свойство доступно только для чтения.

Число предикторных переменных, используемых для соответствия модели, указанное как положительное целое число.

Типы данных: double

`NumVariables` - Количество переменных
положительное целое число

Это свойство доступно только для чтения.

Число переменных во входных данных, указанное как положительное целое число. NumVariables - количество переменных в исходной таблице или наборе данных или общее число столбцов в матрице предиктора и векторе ответа.

NumVariables также включает любые переменные, которые не используются для соответствия модели в качестве предикторов или в качестве ответа.

Типы данных: double

`PredictorNames` - Названия предикторов, используемых для подгонки модели
массив ячеек символьных векторов

Это свойство доступно только для чтения.

Имена предикторов, используемых для подгонки к модели, заданные как клеточный массив символьных векторов.

Типы данных: cell

`ResponseName` - Имя переменной ответа
символьный вектор

Это свойство доступно только для чтения.

Имя ответной переменной, указанное как символьный вектор.

Типы данных: char

`VariableInfo` - Информация о переменных
стол

Это свойство доступно только для чтения.

Информация о переменных, содержащихся в Variables, задается как таблица с одной строкой для каждой переменной и столбцов, описанных в этой таблице.

Колонка	Описание
`Class`	Класс переменных, заданный как массив ячеек символьных векторов, например `'double'` и `'categorical'`
`Range`	Диапазон переменных, заданный как массив ячеек векторов Непрерывная переменная - Двухэлементный вектор `[min,max]`, минимальное и максимальное значения Категориальная переменная - вектор различных значений переменных
`InModel`	Индикатор, переменные которого находятся в подогнанной модели, определяемый как логический вектор. Значение: `true` если модель включает переменную.
`IsCategorical`	Индикатор категориальных переменных, указанный как логический вектор. Значение: `true` если переменная категорична.

VariableInfo также включает любые переменные, которые не используются для соответствия модели в качестве предикторов или в качестве ответа.

Типы данных: table

`VariableNames` - имена переменных;
массив ячеек символьных векторов

Это свойство доступно только для чтения.

Имена переменных, определяемые как массив ячеек символьных векторов.

Если аппроксимация основана на таблице или наборе данных, это свойство предоставляет имена переменных в таблице или наборе данных.
Если подгонка основана на матрице предиктора и векторе отклика, VariableNames содержит значения, указанные 'VarNames' аргумент пары имя-значение метода фитинга. Значение по умолчанию 'VarNames' является {'x1','x2',...,'xn','y'}.

VariableNames также включает любые переменные, которые не используются для соответствия модели в качестве предикторов или в качестве ответа.

Типы данных: cell

Функции объекта

развернуть все

Прогнозирование ответов

`feval`	Прогнозировать ответы обобщенной модели линейной регрессии с использованием одного входного сигнала для каждого предиктора
`predict`	Прогнозирование ответов обобщенной модели линейной регрессии
`random`	Моделирование откликов со случайным шумом для обобщенной модели линейной регрессии

Вычислить обобщенную линейную модель

`coefCI`	Доверительные интервалы оценок коэффициентов обобщенной модели линейной регрессии
`coefTest`	Тест линейной гипотезы по обобщенным коэффициентам модели линейной регрессии
`devianceTest`	Анализ отклонения для обобщенной модели линейной регрессии
`partialDependence`	Вычислить частичную зависимость

Визуализация обобщенной линейной модели и сводной статистики

`plotPartialDependence`	Создание графиков частичной зависимости (PDP) и индивидуального условного ожидания (ICE)
`plotSlice`	График срезов через подогнанную обобщенную линейную регрессионную поверхность

Сбор свойств обобщенной линейной модели

gather Сбор свойств модели машинного обучения из графического процессора

Примеры

свернуть все

Компактная обобщенная модель линейной регрессии

Открыть сценарий в реальном времени

Подгонка обобщенной модели линейной регрессии к данным и уменьшение размера полной, подогнанной модели путем отбрасывания данных выборки и некоторой информации, связанной с процессом подгонки.

Загрузить largedata4reg набор данных, который содержит 15 000 наблюдений и 45 переменных предиктора.

load largedata4reg

Подгоните обобщенную модель линейной регрессии к данным с использованием первых 15 переменных предиктора.

mdl = fitglm(X(:,1:15),Y);

Скомпонуйте модель.

compactMdl = compact(mdl);

Компактная модель отбрасывает исходные данные образца и некоторую информацию, связанную с процессом подгонки, поэтому она использует меньше памяти, чем полная модель.

Сравнение размера полной модели mdl и компактная модель compactMdl.

vars = whos('compactMdl','mdl');
[vars(1).bytes,vars(2).bytes]

ans = 1×2

       15517     4382500

Компактная модель потребляет меньше памяти, чем полная.

Подробнее

развернуть все

Отклонение

Отклонение - это обобщение остаточной суммы квадратов. Он измеряет доброту посадки по сравнению с насыщенной моделью.

Отклонение M1 модели в два раза больше разницы между логикой модели M1 и насыщенной моделью Ms A насыщенная модель является моделью с максимальным количеством параметров, которое можно оценить.

Например, если есть n наблюдений (yi, i = 1, 2,..., n) с потенциально различными значениями для XiTβ, то можно определить насыщенную модель с n параметрами. Пусть L (b, y) обозначает максимальное значение функции правдоподобия для модели с параметрами b. Тогда отклонение модели _M1

$- 2 ({logL}_{} (b1, y) -_{} logL ($ bS, y)),

где b1 и bs содержат оценочные параметры для модели M1 и насыщенной модели соответственно. Отклонение имеет хи-квадратное распределение с n - p степенями свободы, где n - число параметров в насыщенной модели и p - число параметров в M1 модели.

Предположим, что у вас есть две различные обобщенные модели линейной регрессии M1 и M2, и M1 имеет подмножество членов в M2. Можно оценить соответствие моделей, сравнив отклонения D1 и D2 двух моделей. Разница отклонений

$\begin{array}{l} D =_{} {D2}_{} - D1 = - 2_{} (logL (b2,_{} y) - logL ({bS}_{,} y)) + 2 (_{} logL \\ (b1, y) - logL_{(} bS, y)) =_{−} 2 ( \end{array}$ logL (b2, y) − logL (b1, y)).

Асимптотически разность D имеет хи-квадратное распределение со степенями свободы v, равными разнице в количестве параметров, оцениваемых в M1 и M2. Значение p для этого теста можно получить с помощью 1 – chi2cdf(D,v).

Обычно вы исследуете D с помощью модели, M2 с постоянным термином и без предикторов. Поэтому D имеет распределение хи-квадрат с p - 1 степенями свободы. Если дисперсия оценивается, разница, деленная на расчетную дисперсию, имеет F-распределение с p-1 числительными степенями свободы и n-p знаменательными степенями свободы.

Ссылки

[1] Макфадден, Дэниел. «Условный логитовый анализ качественного поведения выбора». в Frontiers in Econometrics, под редакцией П. Zarembka,105-42. Нью-Йорк: Академическая пресса, 1974.

[2] Нагелькерке, Н. Дж. Д. «Примечание к общему определению коэффициента определения». Биометрика 78, № 3 (1991): 691-92.

[3] Маддала, Gangadharrao S. Ограниченные зависимые и качественные переменные в эконометрике. Монографии Эконометрического общества. Нью-Йорк, Нью-Йорк: Cambridge University Press, 1983.

[4] Кокс, D. R. и E. J. Поводок. Анализ двоичных данных. 2-я редакция Монографии по статистике и прикладной вероятности 32. Лондон; Нью-Йорк: Чепмен и Холл, 1989.

[5] Маги, Лонни. «Измерения R 2, основанные на совместных тестах значимости Wald и отношения правдоподобия». Американский статистик 44, № 3 (август 1990 года): 250-53.

Расширенные возможности

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™

Примечания и ограничения по использованию:

predict и random функции поддерживают генерацию кода.
При подгонке модели с помощью fitglm или stepwiseglm, вы не можете указать Link, Derivative, и Inverse поля 'Link' аргумент пары имя-значение как анонимные функции. То есть нельзя создать код с помощью обобщенной линейной модели, созданной с помощью анонимных функций для ссылок. Вместо этого определите функции для компонентов связи.

Дополнительные сведения см. в разделе Введение в создание кода.

Массивы графических процессоров
Ускорьте выполнение кода с помощью графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Примечания и ограничения по использованию:

Следующие функции объекта полностью поддерживают массивы GPU:
Следующие функции объектов поддерживают объекты модели, оснащенные входными аргументами массива GPU:

Дополнительные сведения см. в разделе Запуск функций MATLAB на графическом процессоре (панель инструментов параллельных вычислений).

См. также

compact | fitglm | GeneralizedLinearModel | stepwiseglm

Темы

Представлен в R2016b

Документация

CompactGeneralizedLinearModel

Описание

Создание

Свойства

Оценки коэффициентов

CoefficientCovariance - Ковариационная матрица оценок коэффициентов числовая матрица

CoefficientNames - Наименования коэффициентов массив ячеек символьных векторов

Coefficients - Значения коэффициентов стол

NumCoefficients - Количество коэффициентов модели положительное целое число

NumEstimatedCoefficients - Количество расчетных коэффициентов положительное целое число

Сводная статистика

Deviance - Отклонение подгонки числовое значение

DFE - Степени свободы для ошибки положительное целое число

Dispersion - Масштабный коэффициент дисперсии отклика числовой скаляр

DispersionEstimated - Флаг для обозначения использования масштабного коэффициента дисперсии логическое значение

LogLikelihood - Средства к существованию числовое значение

ModelCriterion - Критерий сравнения моделей структура

Rsquared - R-квадрат для модели структура

SSE - Сумма квадратичных ошибок числовое значение

SSR - Регрессионная сумма квадратов числовое значение

SST - Общая сумма квадратов числовое значение

Входные данные

Distribution - Обобщенная информация о распределении структура

Formula - Информация о модели LinearFormula объект

Link - Функция связи структура

NumObservations - Количество наблюдений положительное целое число

NumPredictors - Количество переменных предиктора положительное целое число

NumVariables - Количество переменных положительное целое число

PredictorNames - Названия предикторов, используемых для подгонки модели массив ячеек символьных векторов

ResponseName - Имя переменной ответа символьный вектор

VariableInfo - Информация о переменных стол

VariableNames - имена переменных; массив ячеек символьных векторов

Функции объекта

Прогнозирование ответов

Вычислить обобщенную линейную модель

Визуализация обобщенной линейной модели и сводной статистики

Сбор свойств обобщенной линейной модели

Примеры

Компактная обобщенная модель линейной регрессии

Подробнее

Отклонение

Ссылки

Расширенные возможности

Создание кода C/C + + Создайте код C и C++ с помощью MATLAB ® Coder™

Массивы графических процессоров Ускорьте выполнение кода с помощью графического процессора (GPU) с помощью Parallel Computing Toolbox™.

См. также

Темы

Документация по инструментам для статистического и машинного обучения

Поддержка

`CoefficientCovariance` - Ковариационная матрица оценок коэффициентов
числовая матрица

`CoefficientNames` - Наименования коэффициентов
массив ячеек символьных векторов

`Coefficients` - Значения коэффициентов
стол

`NumCoefficients` - Количество коэффициентов модели
положительное целое число

`NumEstimatedCoefficients` - Количество расчетных коэффициентов
положительное целое число

`Deviance` - Отклонение подгонки
числовое значение

`DFE` - Степени свободы для ошибки
положительное целое число

`Dispersion` - Масштабный коэффициент дисперсии отклика
числовой скаляр

`DispersionEstimated` - Флаг для обозначения использования масштабного коэффициента дисперсии
логическое значение

`LogLikelihood` - Средства к существованию
числовое значение

`ModelCriterion` - Критерий сравнения моделей
структура

`Rsquared` - R-квадрат для модели
структура

`SSE` - Сумма квадратичных ошибок
числовое значение

`SSR` - Регрессионная сумма квадратов
числовое значение

`SST` - Общая сумма квадратов
числовое значение

`Distribution` - Обобщенная информация о распределении
структура

`Formula` - Информация о модели
`LinearFormula` объект

`Link` - Функция связи
структура

`NumObservations` - Количество наблюдений
положительное целое число

`NumPredictors` - Количество переменных предиктора
положительное целое число

`NumVariables` - Количество переменных
положительное целое число

`PredictorNames` - Названия предикторов, используемых для подгонки модели
массив ячеек символьных векторов

`ResponseName` - Имя переменной ответа
символьный вектор

`VariableInfo` - Информация о переменных
стол

`VariableNames` - имена переменных;
массив ячеек символьных векторов

Создание кода C/C + +
Создайте код C и C++ с помощью MATLAB ® Coder™

Массивы графических процессоров
Ускорьте выполнение кода с помощью графического процессора (GPU) с помощью Parallel Computing Toolbox™.