CompactGeneralizedLinearModel

Компактный обобщенный линейный класс модели регрессии

Описание

CompactGeneralizedLinearModel компактная версия полного обобщенного линейного объекта модели регрессии GeneralizedLinearModel. Поскольку компактная модель не хранит входные данные, используемые, чтобы подбирать модель или информацию, связанную с подходящим процессом, CompactGeneralizedLinearModel объект использует меньше памяти, чем GeneralizedLinearModel объект. Можно все еще использовать компактную модель, чтобы предсказать ответы с помощью новых входных данных, но некоторого GeneralizedLinearModel объектные функции не работают с компактной моделью.

Создание

Создайте CompactGeneralizedLinearModel модель от полного, обученного GeneralizedLinearModel модель при помощи compact.

fitglm возвращает CompactGeneralizedLinearModel когда вы работаете с длинными массивами, и возвращает GeneralizedLinearModel когда вы работаете с таблицами в оперативной памяти и массивами.

Свойства

развернуть все

Содействующие оценки

`CoefficientCovariance` — Ковариационная матрица содействующих оценок
числовая матрица

Это свойство доступно только для чтения.

Ковариационная матрица коэффициента оценивает в виде p-by-p матрицу числовых значений. p является количеством коэффициентов в подобранной модели.

Для получения дополнительной информации смотрите Содействующие Стандартные погрешности и Доверительные интервалы.

Типы данных: single | double

`CoefficientNames` — Содействующие имена
массив ячеек из символьных векторов

Это свойство доступно только для чтения.

Коэффициент называет в виде массива ячеек из символьных векторов, каждый содержащий имя соответствующего термина.

Типы данных: cell

`Coefficients` — Содействующие значения
таблица

Это свойство доступно только для чтения.

Содействующие значения в виде таблицы. Coefficients содержит одну строку для каждого коэффициента и этих столбцов:

Estimate — Предполагаемое содействующее значение
SE — Стандартная погрешность оценки
tStat — t - статистическая величина для теста, что коэффициент является нулем
pValue — p - значение для t - статистическая величина

Использование anova (только для модели линейной регрессии) или coefTest выполнять другие тесты на коэффициентах. Использование coefCI найти доверительные интервалы содействующих оценок.

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку. Например, получите предполагаемый вектор коэффициентов в модели mdl:

beta = mdl.Coefficients.Estimate

Типы данных: table

`NumCoefficients` — Количество коэффициентов модели
положительное целое число

Это свойство доступно только для чтения.

Количество коэффициентов модели в виде положительного целого числа. NumCoefficients включает коэффициенты, которые обнуляются, когда термины модели имеют неполный ранг.

Типы данных: double

`NumEstimatedCoefficients` — Количество предполагаемых коэффициентов
положительное целое число

Это свойство доступно только для чтения.

Количество предполагаемых коэффициентов в модели в виде положительного целого числа. NumEstimatedCoefficients не включает коэффициенты, которые обнуляются, когда термины модели имеют неполный ранг. NumEstimatedCoefficients степени свободы для регрессии.

Типы данных: double

Итоговая статистика

`Deviance` — Отклонение подгонки
числовое значение

Это свойство доступно только для чтения.

Отклонение подгонки в виде числового значения. Отклонение полезно для сравнения двух моделей, когда одна модель является особым случаем другой модели. Различие между отклонением этих двух моделей имеет распределение хи-квадрат со степенями свободы, равными различию в количестве предполагаемых параметров между этими двумя моделями. Для получения дополнительной информации смотрите Отклонение.

Типы данных: single | double

`DFE` — Степени свободы для ошибки
положительное целое число

Это свойство доступно только для чтения.

Степени свободы для ошибки (остаточные значения), равняйтесь количеству наблюдений минус количество предполагаемых коэффициентов в виде положительного целого числа.

Типы данных: double

`Dispersion` — Масштабный коэффициент отклонения ответа
числовой скаляр

Это свойство доступно только для чтения.

Масштабный коэффициент отклонения ответа в виде числового скаляра.

Если 'DispersionFlag' аргумент пары "имя-значение" fitglm или stepwiseglm true, затем функция оценивает Dispersion масштабный коэффициент в вычислении отклонения ответа. Отклонение ответа равняется теоретическому отклонению, умноженному на масштабный коэффициент.

Например, функцией отклонения для биномиального распределения является p (1–p)/n, где p является параметром вероятности, и n является параметром объема выборки. Если Dispersion около 1, отклонение данных, кажется, соглашается с теоретическим отклонением биномиального распределения. Если Dispersion больше, чем 1, набор данных “сверхрассеивается” относительно биномиального распределения.

Типы данных: double

`DispersionEstimated` — Отметьте, чтобы указать на использование дисперсионного масштабного коэффициента
логическое значение

Это свойство доступно только для чтения.

Отметьте, чтобы указать ли fitglm используемый Dispersion масштабный коэффициент, чтобы вычислить стандартные погрешности для коэффициентов в Coefficients.SEВ виде логического значения. Если DispersionEstimated false, fitglm используемый теоретическое значение отклонения.

DispersionEstimated может быть false только для бинома и распределений Пуассона.
Установите DispersionEstimated путем установки 'DispersionFlag' аргумент пары "имя-значение" fitglm или stepwiseglm.

Типы данных: логический

`LogLikelihood` — Логарифмическая правдоподобность
числовое значение

Это свойство доступно только для чтения.

Логарифмическая правдоподобность распределения модели в значениях отклика в виде числового значения. Среднее значение адаптировано из модели, и другие параметры оцениваются как часть подгонки модели.

Типы данных: single | double

`ModelCriterion` — Критерий сравнения модели
структура

Это свойство доступно только для чтения.

Критерий сравнения модели в виде структуры с этими полями:

AIC — Критерий информации о Akaike. AIC = –2*logL + 2*m, где logL логарифмическая правдоподобность и m количество предполагаемых параметров.
AICc — Критерий информации о Akaike откорректирован для объема выборки. AICc = AIC + (2*m*(m + 1))/(n – m – 1), где n количество наблюдений.
BIC — Байесов информационный критерий. BIC = –2*logL + m*log(n).
CAIC — Сопоставимый информационный критерий Akaike. CAIC = –2*logL + m*(log(n) + 1).

Информационные критерии являются инструментами выбора модели, которые можно использовать, чтобы сравнить подгонку многоуровневых моделей к тем же данным. Эти критерии являются основанными на вероятности мерами подгонки модели, которые включают штраф за сложность (а именно, количество параметров). Различные информационные критерии отличает форма штрафа.

Когда вы сравниваете многоуровневые модели, модель с самым низким информационным значением критерия является моделью оптимальной подгонки. Модель оптимальной подгонки может варьироваться в зависимости от критерия, используемого для сравнения модели.

Чтобы получить любое из значений критерия как скаляр, индексируйте в свойство с помощью записи через точку. Например, получите значение AIC aic в модели mdl:

aic = mdl.ModelCriterion.AIC

Типы данных: struct

`Rsquared` — Значение R-squared для модели
структура

Это свойство доступно только для чтения.

Значение R-squared для модели в виде структуры с пятью полями.

Поле	Описание	Уравнение
`Ordinary`	Обычный (неприспособленный) R-squared	$R_{Ordinary}^{2} = 1 - \frac{SSE}{SST}$ `SSE` сумма квадратичных невязок и `SST` полная сумма отклонений в квадрате вектора отклика от среднего значения вектора отклика.
`Adjusted`	R-squared, настроенный для количества коэффициентов	$R_{Adjusted}^{2} = 1 - \frac{SSE}{SST} \cdot \frac{N - 1}{DFE}$ N является количеством наблюдений (`NumObservations`), и `DFE` степени свободы для ошибки (остаточные значения).
`LLR`	Отношение логарифмической правдоподобности	$R_{LLR}^{2} = 1 - \frac{L}{L_{0}}$ L является логарифмической правдоподобностью подобранной модели (`LogLikelihood`), и _L0 является логарифмической правдоподобностью модели, которая включает только постоянный термин. R²_LLR является Макфадден псевдо значение R-squared [1] для моделей логистической регрессии.
`Deviance`	Отклонение R-squared	$R_{Deviance}^{2} = 1 - \frac{D}{D_{0}}$ D является отклонением подобранной модели (`Deviance`), и _D0 является отклонением модели, которая включает только постоянный термин.
`AdjGeneralized`	Настроенный обобщил R-squared	$R_{AdjGeneralized}^{2} = \frac{1 - \exp (\frac{2 (L_{0} - L)}{N})}{1 - \exp (\frac{2 L_{0}}{N})}$ R²_{AdjGeneralized} является корректировкой Nagelkerke [2] к формуле, предложенной Maddala [3], Cox и Поводком [4], и Маги [5] для моделей логистической регрессии.

Чтобы получить любое из этих значений как скаляр, индексируйте в свойство с помощью записи через точку. Например, чтобы получить настроенное значение R-squared в модели mdl, Введите:

r2 = mdl.Rsquared.Adjusted

Типы данных: struct

`SSE` — Сумма квадратичных невязок
числовое значение

Это свойство доступно только для чтения.

Сумма квадратичных невязок (остаточные значения) в виде числового значения.

Типы данных: single | double

`SSR` — Сумма квадратов регрессии
числовое значение

Это свойство доступно только для чтения.

Сумма квадратов регрессии в виде числового значения. Сумма квадратов регрессии равна сумме отклонений в квадрате подходящих значений от их среднего значения.

Типы данных: single | double

`SST` — Полная сумма квадратов
числовое значение

Это свойство доступно только для чтения.

Полная сумма квадратов в виде числового значения. Полная сумма квадратов равна сумме отклонений в квадрате вектора отклика y от mean(y).

Типы данных: single | double

Входные данные

`Distribution` — Обобщенная информация о распределении
структура

Это свойство доступно только для чтения.

Обобщенная информация о распределении в виде структуры с полями, описанными в этой таблице.

Поле	Описание
`Name`	Имя распределения: `'normal'`, `'binomial'`, `'poisson'\Gamma`, или `'inverse gaussian'`
`DevianceFunction`	Функция, которая вычисляет компоненты отклонения в зависимости от подходящих значений параметров и значений отклика
`VarianceFunction`	Функция, которая вычисляет теоретическое отклонение для распределения в зависимости от подходящих значений параметров. Когда `DispersionEstimated` `true`, программное обеспечение умножает функцию отклонения на `Dispersion` в расчете содействующих стандартных погрешностей.

Типы данных: struct

`Formula` — Информация модели
`LinearFormula` объект

Это свойство доступно только для чтения.

Информация модели в виде LinearFormula объект.

Отобразите формулу подобранной модели mdl использование записи через точку:

mdl.Formula

`Link` — Функция ссылки
структура

Это свойство доступно только для чтения.

Функция ссылки в виде структуры с полями, описанными в этой таблице.

Поле	Описание
`Name`	Имя ссылки функционирует в виде вектора символов. Если вы задаете функцию ссылки использование указателя на функцию, то `Name` `''`.
`Link`	Функциональный f, который задает функцию ссылки в виде указателя на функцию
`Derivative`	Производная f в виде указателя на функцию
`Inverse`	Инверсия f в виде указателя на функцию

Функцией ссылки является функциональный f, который соединяет параметр распределения μ с подходящей линейной комбинацией Xb предикторов:

f (μ) = Xb.

Типы данных: struct

`NumObservations` — Количество наблюдений
положительное целое число

Это свойство доступно только для чтения.

Количество наблюдений подходящая функция используется в подборе кривой в виде положительного целого числа. NumObservations количество наблюдений, предоставленных в исходной таблице, наборе данных или матрице, минус любые исключенные строки (набор с 'Exclude' аргумент пары "имя-значение") или строки с отсутствующими значениями.

Типы данных: double

`NumPredictors` — Количество переменных предикторов
положительное целое число

Это свойство доступно только для чтения.

Количество переменных предикторов раньше подбирало модель в виде положительного целого числа.

Типы данных: double

`NumVariables` — Количество переменных
положительное целое число

Это свойство доступно только для чтения.

Количество переменных во входных данных в виде положительного целого числа. NumVariables количество переменных в исходной таблице или наборе данных или общем количестве столбцов в матрице предиктора и векторе отклика.

NumVariables также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: double

`PredictorNames` — Имена предикторов раньше подбирали модель
массив ячеек из символьных векторов

Это свойство доступно только для чтения.

Имена предикторов раньше подбирали модель в виде массива ячеек из символьных векторов.

Типы данных: cell

`ResponseName` — Имя переменной отклика
символьный вектор

Это свойство доступно только для чтения.

Имя переменной отклика в виде вектора символов.

Типы данных: char

`VariableInfo` — Информация о переменных
таблица

Это свойство доступно только для чтения.

Информация о переменных содержится в VariablesВ виде таблицы с одной строкой для каждой переменной и столбцов, описанных в этой таблице.

Столбец	Описание
`Class`	Переменный класс в виде массива ячеек из символьных векторов, такого как `'double'` и `'categorical'`
`Range`	Переменный диапазон в виде массива ячеек векторов Непрерывная переменная — Двухэлементный вектор `[minMax ]`, минимальные и максимальные значения Категориальная переменная — Вектор из отличных значений переменных
`InModel`	Индикатор которого переменные находятся в подобранной модели в виде логического вектора. Значением является `true` если модель включает переменную.
`IsCategorical`	Индикатор категориальных переменных в виде логического вектора. Значением является `true` если переменная является категориальной.

VariableInfo также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: table

`VariableNames` — Имена переменных
массив ячеек из символьных векторов

Это свойство доступно только для чтения.

Имена переменных в виде массива ячеек из символьных векторов.

Если подгонка основана на таблице или наборе данных, это свойство обеспечивает имена переменных в таблице или наборе данных.
Если подгонка основана на матрице предиктора и векторе отклика, VariableNames содержит значения, заданные 'VarNames' аргумент пары "имя-значение" подходящего метода. Значение по умолчанию 'VarNames' {'x1','x2',...,'xn','y'}.

VariableNames также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: cell

Функции объекта

развернуть все

Предскажите ответы

`feval`	Предскажите ответы обобщенной линейной модели регрессии использование входа того для каждого предиктора
`predict`	Предскажите ответы обобщенной линейной модели регрессии
`random`	Симулируйте ответы со случайным шумом для обобщенной линейной модели регрессии

Оцените обобщенную линейную модель

`coefCI`	Доверительные интервалы содействующих оценок обобщенной линейной модели регрессии
`coefTest`	Линейный тест гипотезы на обобщенных линейных коэффициентах модели регрессии
`devianceTest`	Анализ отклонения для обобщенной линейной модели регрессии
`partialDependence`	Вычислите частичную зависимость

Визуализируйте обобщенную линейную и итоговую статистику модели

`plotPartialDependence`	Создайте графики отдельного условного ожидания (ICE) и частичный график зависимости (PDP)
`plotSlice`	График срезов через подходящую обобщенную линейную поверхность регрессии

Соберите свойства обобщенной линейной модели

gather Соберите свойства объекта Statistics and Machine Learning Toolbox от графического процессора

Примеры

свернуть все

Компактная обобщенная линейная модель регрессии

Скрипт Open Live Script

Подбирайте обобщенную линейную модель регрессии к данным и уменьшайте размер полной, подобранной модели путем отбрасывания выборочных данных и некоторой информации, связанной с подходящим процессом.

Загрузите largedata4reg набор данных, который содержит 15 000 наблюдений и 45 переменных предикторов.

load largedata4reg

Подбирайте обобщенную линейную модель регрессии к данным с помощью первых 15 переменных предикторов.

mdl = fitglm(X(:,1:15),Y);

Уплотните модель.

compactMdl = compact(mdl);

Компактная модель отбрасывает исходные выборочные данные и некоторую информацию, связанную с подходящим процессом, таким образом, это использует меньше памяти, чем полная модель.

Сравните размер полной модели mdl и компактная модель compactMdl.

vars = whos('compactMdl','mdl');
[vars(1).bytes,vars(2).bytes]

ans = 1×2

       15517     4382500

Компактная модель использует меньше памяти, чем полная модель.

Больше о

развернуть все

Отклонение

Отклонение является обобщением остаточной суммы квадратов. Это измеряет качество подгонки по сравнению с влажной моделью.

Отклонение модели M₁ является дважды различием между логарифмической правдоподобностью модели M₁ и влажной моделью M _s. Влажная модель является моделью с максимальным количеством параметров, которые можно оценить.

Например, если у вас есть наблюдения n (y _i, i = 1, 2..., n) с потенциально различными значениями для X _i^Tβ, затем можно задать влажную модель параметрами n. Позвольте L (b, y) обозначают максимальное значение функции правдоподобия для модели параметрами b. Затем отклонение модели M₁

$- 2 (\log L (b_{1}, y) - \log L (b_{S}, y)),$

где b ₁ и b _s содержит предполагаемые параметры для модели M₁ и влажной модели, соответственно. Отклонение имеет распределение хи-квадрат с n – степени свободы p, где n является количеством параметров во влажной модели, и p является количеством параметров в модели M₁.

Примите, что у вас есть две различных обобщенных линейных модели M регрессии ₁ и M ₂, и M ₁ имеет подмножество терминов в M ₂. Можно оценить припадок моделей путем сравнения отклонений D ₁ и D ₂ из этих двух моделей. Различие отклонений

$\begin{array}{l} D = D_{2} - D_{1} = - 2 (\log L (b_{2}, y) - \log L (b_{S}, y)) + 2 (\log L (b_{1}, y) - \log L (b_{S}, y)) \\ = - 2 (\log L (b_{2}, y) - \log L (b_{1}, y)) . \end{array}$

Асимптотически, различие D имеет распределение хи-квадрат со степенями свободы v, равный различию в количестве параметров, оцененных в M ₁ и M ₂. Можно получить p - значение для этого теста при помощи 1 – chi2cdf(D,v).

Как правило, вы исследуете D с помощью модели M₂ с постоянным термином и никакими предикторами. Поэтому D имеет распределение хи-квадрат с p – 1 степень свободы. Если дисперсия оценивается, различие, разделенное на предполагаемую дисперсию, имеет распределение F с p – 1 степенью свободы числителя и n – степени свободы знаменателя p.

Ссылки

[1] Макфадден, Дэниел. "Условный анализ логита качественного поведения выбора". в Границах в Эконометрике, отредактированной П. Зэрембкой, 105–42. Нью-Йорк: Academic Press, 1974.

[2] Nagelkerke, N. J. D. "Примечание по Общему Определению Коэффициента детерминации". Biometrika 78, № 3 (1991): 691–92.

[3] Maddala, Гэнгэдхаррэо С. Ограничено-зависимые и качественные переменные в эконометрике. Эконометрические общественные монографии. Нью-Йорк, Нью-Йорк: Издательство Кембриджского университета, 1983.

[4] Cox, D. R. и Э. Дж. Снелл. Анализ Двоичных данных. 2-е монографии редактора на Статистике и Прикладной Вероятности 32. Лондон; Нью-Йорк: Чепмен и Холл, 1989.

[5] Маги, Лонни. "Меры по R 2 На основе Тестов Значения Соединения Вальда и Отношения правдоподобия". Американский Статистик 44, № 3 (август 1990): 250–53.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Указания и ограничения по применению:

predict и random функции поддерживают генерацию кода.
Когда вы подбираете модель при помощи fitglm или stepwiseglm, вы не можете задать Link, Derivative, и Inverse поля 'Link' аргумент пары "имя-значение" как анонимные функции. Таким образом, вы не можете сгенерировать код с помощью обобщенной линейной модели, которая была создана с помощью анонимных функций для ссылок. Вместо этого задайте функции для компонентов ссылки.

Для получения дополнительной информации смотрите Введение в Генерацию кода.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Указания и ограничения по применению:

Следующие объектные функции полностью поддерживают массивы графического процессора:
Следующий объект функционирует объекты модели поддержки, снабженные входными параметрами графического процессора массивов:

Для получения дополнительной информации смотрите функции MATLAB Запуска на графическом процессоре (Parallel Computing Toolbox).

Темы

Введенный в R2017b

Документация

CompactGeneralizedLinearModel

Описание

Создание

Свойства

Содействующие оценки

CoefficientCovariance — Ковариационная матрица содействующих оценок числовая матрица

CoefficientNames — Содействующие имена массив ячеек из символьных векторов

Coefficients — Содействующие значения таблица

NumCoefficients — Количество коэффициентов модели положительное целое число

NumEstimatedCoefficients — Количество предполагаемых коэффициентов положительное целое число

Итоговая статистика

Deviance — Отклонение подгонки числовое значение

DFE — Степени свободы для ошибки положительное целое число

Dispersion — Масштабный коэффициент отклонения ответа числовой скаляр

DispersionEstimated — Отметьте, чтобы указать на использование дисперсионного масштабного коэффициента логическое значение

LogLikelihood — Логарифмическая правдоподобность числовое значение

ModelCriterion — Критерий сравнения модели структура

Rsquared — Значение R-squared для модели структура

SSE — Сумма квадратичных невязок числовое значение

SSR — Сумма квадратов регрессии числовое значение

SST — Полная сумма квадратов числовое значение

Входные данные

Distribution — Обобщенная информация о распределении структура

Formula — Информация модели LinearFormula объект

Link — Функция ссылки структура

NumObservations — Количество наблюдений положительное целое число

NumPredictors — Количество переменных предикторов положительное целое число

NumVariables — Количество переменных положительное целое число

PredictorNames — Имена предикторов раньше подбирали модель массив ячеек из символьных векторов

ResponseName — Имя переменной отклика символьный вектор

VariableInfo — Информация о переменных таблица

VariableNames — Имена переменных массив ячеек из символьных векторов

Функции объекта

Предскажите ответы

Оцените обобщенную линейную модель

Визуализируйте обобщенную линейную и итоговую статистику модели

Соберите свойства обобщенной линейной модели

Примеры

Компактная обобщенная линейная модель регрессии

Больше о

Отклонение

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью MATLAB® Coder™.

Массивы графического процессора Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`CoefficientCovariance` — Ковариационная матрица содействующих оценок
числовая матрица

`CoefficientNames` — Содействующие имена
массив ячеек из символьных векторов

`Coefficients` — Содействующие значения
таблица

`NumCoefficients` — Количество коэффициентов модели
положительное целое число

`NumEstimatedCoefficients` — Количество предполагаемых коэффициентов
положительное целое число

`Deviance` — Отклонение подгонки
числовое значение

`DFE` — Степени свободы для ошибки
положительное целое число

`Dispersion` — Масштабный коэффициент отклонения ответа
числовой скаляр

`DispersionEstimated` — Отметьте, чтобы указать на использование дисперсионного масштабного коэффициента
логическое значение

`LogLikelihood` — Логарифмическая правдоподобность
числовое значение

`ModelCriterion` — Критерий сравнения модели
структура

`Rsquared` — Значение R-squared для модели
структура

`SSE` — Сумма квадратичных невязок
числовое значение

`SSR` — Сумма квадратов регрессии
числовое значение

`SST` — Полная сумма квадратов
числовое значение

`Distribution` — Обобщенная информация о распределении
структура

`Formula` — Информация модели
`LinearFormula` объект

`Link` — Функция ссылки
структура

`NumObservations` — Количество наблюдений
положительное целое число

`NumPredictors` — Количество переменных предикторов
положительное целое число

`NumVariables` — Количество переменных
положительное целое число

`PredictorNames` — Имена предикторов раньше подбирали модель
массив ячеек из символьных векторов

`ResponseName` — Имя переменной отклика
символьный вектор

`VariableInfo` — Информация о переменных
таблица

`VariableNames` — Имена переменных
массив ячеек из символьных векторов

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.