GeneralizedLinearModel

Обобщенный линейный класс модели регрессии

Описание

GeneralizedLinearModel подбиравшая обобщенная линейная модель регрессии. Обобщенная линейная модель регрессии является специальным классом нелинейных моделей, которые описывают нелинейное отношение между ответом и предикторами. Обобщенная линейная модель регрессии обобщила характеристики модели линейной регрессии. Переменная отклика следует за нормальным, биномиальным, Пуассоном, гаммой или обратным Распределением Гаусса параметрами включая средний ответ μ. Функция ссылки f задает отношение между μ и линейной комбинацией предикторов.

Используйте свойства GeneralizedLinearModel объект исследовать подбиравшую обобщенную линейную модель регрессии. Свойства объектов включают информацию о содействующих оценках, итоговой статистике, подходящем методе и входных данных. Используйте объектные функции, чтобы предсказать ответы и изменить, оценить, и визуализировать модель.

Создание

Создайте GeneralizedLinearModel объект при помощи fitglm или stepwiseglm.

fitglm подбирает обобщенную линейную модель регрессии к данным с помощью фиксированной спецификации модели. Использование addTerms, removeTerms, или step добавить или удалить условия из модели. В качестве альтернативы используйте stepwiseglm подбирать модель с помощью пошаговой обобщенной линейной регрессии.

Свойства

развернуть все

Содействующие оценки

`CoefficientCovariance` — Ковариационная матрица содействующих оценок
числовая матрица

Это свойство доступно только для чтения.

Ковариационная матрица коэффициента оценивает в виде p-by-p матрицу числовых значений. p является количеством коэффициентов в подобранной модели.

Для получения дополнительной информации смотрите Содействующие Стандартные погрешности и Доверительные интервалы.

Типы данных: single | double

`CoefficientNames` — Содействующие имена
массив ячеек из символьных векторов

Это свойство доступно только для чтения.

Коэффициент называет в виде массива ячеек из символьных векторов, каждый содержащий имя соответствующего термина.

Типы данных: cell

`Coefficients` — Содействующие значения
таблица

Это свойство доступно только для чтения.

Содействующие значения в виде таблицы. Coefficients содержит одну строку для каждого коэффициента и этих столбцов:

Estimate — Предполагаемое содействующее значение
SE — Стандартная погрешность оценки
tStat — t - статистическая величина для теста, что коэффициент является нулем
pValue — p - значение для t - статистическая величина

Использование coefTest выполнять линейные тесты гипотезы на коэффициентах. Использование coefCI найти доверительные интервалы содействующих оценок.

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку. Например, получите предполагаемый вектор коэффициентов в модели mdl:

beta = mdl.Coefficients.Estimate

Типы данных: table

`NumCoefficients` — Количество коэффициентов модели
положительное целое число

Это свойство доступно только для чтения.

Количество коэффициентов модели в виде положительного целого числа. NumCoefficients включает коэффициенты, которые обнуляются, когда условия модели имеют неполный ранг.

Типы данных: double

`NumEstimatedCoefficients` — Количество предполагаемых коэффициентов
положительное целое число

Это свойство доступно только для чтения.

Количество предполагаемых коэффициентов в модели в виде положительного целого числа. NumEstimatedCoefficients не включает коэффициенты, которые обнуляются, когда условия модели имеют неполный ранг. NumEstimatedCoefficients степени свободы для регрессии.

Типы данных: double

Итоговая статистика

`Deviance` — Отклонение подгонки
числовое значение

Это свойство доступно только для чтения.

Отклонение подгонки в виде числового значения. Отклонение полезно для сравнения двух моделей, когда одна модель является особым случаем другой модели. Различие между отклонением этих двух моделей имеет распределение хи-квадрат со степенями свободы, равными различию в количестве предполагаемых параметров между этими двумя моделями. Для получения дополнительной информации смотрите Отклонение.

Типы данных: single | double

`DFE` — Степени свободы для ошибки
положительное целое число

Это свойство доступно только для чтения.

Степени свободы для ошибки (остаточные значения), равняйтесь количеству наблюдений минус количество предполагаемых коэффициентов в виде положительного целого числа.

Типы данных: double

`Diagnostics` — Диагностика наблюдения
таблица

Это свойство доступно только для чтения.

Диагностика наблюдения в виде таблицы, которая содержит одну строку для каждого наблюдения и столбцов, описанных в этой таблице.

Столбец	Значение	Описание
`Leverage`	Диагональные элементы `HatMatrix`	`Leverage` поскольку каждое наблюдение указывает, до какой степени подгонка определяется наблюдаемыми значениями предиктора. Значение близко к `1` указывает, что подгонка в основном определяется тем наблюдением с небольшим вкладом от других наблюдений. Значение близко к `0` указывает, что подгонка в основном определяется другими наблюдениями. Для модели с `P` коэффициенты и `N` наблюдения, среднее значение `Leverage` `P/N`. `Leverage` значение, больше, чем `2*P/N` указывает на высокие рычаги.
`CooksDistance`	Расстояние повара масштабированного изменения в подходящих значениях	`CooksDistance` мера масштабированного изменения в подходящих значениях. Наблюдение с `CooksDistance` больше, чем три раза расстояние среднего Кука может быть выброс.
`HatMatrix`	Матрица проекции, чтобы вычислить адаптированный из наблюдаемых ответов	`HatMatrix` `N`- `N` матрицируйте таким образом что `Fitted = HatMatrix*Y`, где `Y` вектор отклика и `Fitted` вектор из подходящих значений отклика.

Программное обеспечение вычисляет эти значения по шкале линейной комбинации предикторов, сохраненных в LinearPredictor поле Fitted и Residuals свойства. Например, программное обеспечение вычисляет диагностические значения при помощи подходящего ответа и настроенных значений отклика из модели mdl.

Yfit = mdl.Fitted.LinearPredictor
Yadjusted = mdl.Fitted.LinearPredictor + mdl.Residuals.LinearPredictor

Diagnostics содержит информацию, которая полезна в нахождении выбросов и влиятельных наблюдений. Для получения дополнительной информации смотрите Рычаги, Расстояние Повара и Матрицу Шляпы.

Использование plotDiagnostics построить диагностику наблюдения.

Строки, не используемые в подгонке из-за отсутствующих значений (в ObservationInfo.Missing) или исключенные значения (в ObservationInfo.Excluded) содержите NaN значения в CooksDistance столбец и нули в Leverage и HatMatrix столбцы.

Чтобы получить любой из этих столбцов как массив, индексируйте в свойство с помощью записи через точку. Например, получите матрицу шляпы в модели mdl:

HatMatrix = mdl.Diagnostics.HatMatrix;

Типы данных: table

`Dispersion` — Масштабный коэффициент отклонения ответа
числовой скаляр

Это свойство доступно только для чтения.

Масштабный коэффициент отклонения ответа в виде числового скаляра.

Если 'DispersionFlag' аргумент пары "имя-значение" fitglm или stepwiseglm true, затем функция оценивает Dispersion масштабный коэффициент в вычислении отклонения ответа. Отклонение ответа равняется теоретическому отклонению, умноженному на масштабный коэффициент.

Например, функцией отклонения для биномиального распределения является p (1–p)/n, где p является параметром вероятности, и n является параметром объема выборки. Если Dispersion около 1, отклонение данных, кажется, соглашается с теоретическим отклонением биномиального распределения. Если Dispersion больше, чем 1, набор данных “сверхрассеивается” относительно биномиального распределения.

Типы данных: double

`DispersionEstimated` — Отметьте, чтобы указать на использование дисперсионного масштабного коэффициента
логическое значение

Это свойство доступно только для чтения.

Отметьте, чтобы указать ли fitglm используемый Dispersion масштабный коэффициент, чтобы вычислить стандартные погрешности для коэффициентов в Coefficients.SEВ виде логического значения. Если DispersionEstimated false, fitglm используемый теоретическое значение отклонения.

DispersionEstimated может быть false только для бинома и распределений Пуассона.
Установите DispersionEstimated путем установки 'DispersionFlag' аргумент пары "имя-значение" fitglm или stepwiseglm.

Типы данных: логический

`Fitted` — Подходящие значения отклика на основе входных данных
таблица

Это свойство доступно только для чтения.

Адаптированные (предсказанные) значения на основе входных данных в виде таблицы, которая содержит одну строку для каждого наблюдения и столбцов, описанных в этой таблице.

Столбец	Описание
`Response`	Ожидаемые значения по шкале ответа
`LinearPredictor`	Ожидаемые значения по шкале линейной комбинации предикторов (то же самое, когда функция ссылки применилась `к Response` подходящие значения)
`Probability`	Подходящие вероятности (включенный только с биномиальным распределением)

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку. Например, получите векторный f из подходящих значений на ответе масштабируются в модели mdl:

f = mdl.Fitted.Response

Используйте predict вычислить предсказания для других значений предиктора или вычислить доверительные границы на Fitted.

Типы данных: table

`LogLikelihood` — Логарифмическая правдоподобность
числовое значение

Это свойство доступно только для чтения.

Логарифмическая правдоподобность распределения модели в значениях отклика в виде числового значения. Среднее значение адаптировано из модели, и другие параметры оцениваются как часть подгонки модели.

Типы данных: single | double

`ModelCriterion` — Критерий сравнения модели
структура

Это свойство доступно только для чтения.

Критерий сравнения модели в виде структуры с этими полями:

AIC — Критерий информации о Akaike. AIC = –2*logL + 2*m, где logL логарифмическая правдоподобность и m количество предполагаемых параметров.
AICc — Критерий информации о Akaike откорректирован для объема выборки. AICc = AIC + (2*m*(m + 1))/(n – m – 1), где n количество наблюдений.
BIC — Байесов информационный критерий. BIC = –2*logL + m*log(n).
CAIC — Сопоставимый информационный критерий Akaike. CAIC = –2*logL + m*(log(n) + 1).

Информационные критерии являются инструментами выбора модели, которые можно использовать, чтобы сравнить подгонку многоуровневых моделей к тем же данным. Эти критерии являются основанными на вероятности мерами подгонки модели, которые включают штраф за сложность (а именно, количество параметров). Различные информационные критерии отличает форма штрафа.

Когда вы сравниваете многоуровневые модели, модель с самым низким информационным значением критерия является моделью оптимальной подгонки. Модель оптимальной подгонки может варьироваться в зависимости от критерия, используемого для сравнения модели.

Чтобы получить любое из значений критерия как скаляр, индексируйте в свойство с помощью записи через точку. Например, получите значение AIC aic в модели mdl:

aic = mdl.ModelCriterion.AIC

Типы данных: struct

`Residuals` — Остаточные значения для подобранной модели
таблица

Это свойство доступно только для чтения.

Остаточные значения для подобранной модели в виде таблицы, которая содержит одну строку для каждого наблюдения и столбцов, описанных в этой таблице.

Столбец	Описание
`Raw`	Наблюдаемый минус подходящие значения
`LinearPredictor`	Остаточные значения линейной шкалы предиктора, равняйтесь настроенному значению отклика минус подходящая линейная комбинация предикторов
`Pearson`	Необработанные остаточные значения, разделенные на предполагаемое стандартное отклонение ответа
`Anscombe`	Остаточные значения, заданные на преобразованных данных с преобразованием, выбранным, чтобы удалить скошенность
`Deviance`	Остаточные значения на основе вклада каждого наблюдения к отклонению

Строки, не используемые в подгонке из-за отсутствующих значений (в ObservationInfo.Missing) содержите NaN значения.

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку. Например, получите обычный необработанный вектор невязок r в модели mdl:

r = mdl.Residuals.Raw

Типы данных: table

`Rsquared` — Значение R-squared для модели
структура

Это свойство доступно только для чтения.

Значение R-squared для модели в виде структуры с пятью полями.

Поле	Описание	Уравнение
`Ordinary`	Обычный (неприспособленный) R-squared	$R_{Ordinary}^{2} = 1 - \frac{SSE}{SST}$ `SSE` сумма квадратичных невязок и `SST` полная сумма отклонений в квадрате вектора отклика от среднего значения вектора отклика.
`Adjusted`	R-squared, настроенный для количества коэффициентов	$R_{Adjusted}^{2} = 1 - \frac{SSE}{SST} \cdot \frac{N - 1}{DFE}$ N является количеством наблюдений (`NumObservations`), и `DFE` степени свободы для ошибки (остаточные значения).
`LLR`	Отношение логарифмической правдоподобности	$R_{LLR}^{2} = 1 - \frac{L}{L_{0}}$ L является логарифмической правдоподобностью подобранной модели (`LogLikelihood`), и _L0 является логарифмической правдоподобностью модели, которая включает только постоянный термин. ^R2 _LLR является Макфадден псевдо значение R-squared [1] для моделей логистической регрессии.
`Deviance`	Отклонение R-squared	$R_{Deviance}^{2} = 1 - \frac{D}{D_{0}}$ D является отклонением подобранной модели (`Deviance`), и _D0 является отклонением модели, которая включает только постоянный термин.
`AdjGeneralized`	Настроенный обобщил R-squared	$R_{AdjGeneralized}^{2} = \frac{1 - \exp (\frac{2 (L_{0} - L)}{N})}{1 - \exp (\frac{2 L_{0}}{N})}$ ^R2_{AdjGeneralized} является корректировкой Nagelkerke [2] к формуле, предложенной Maddala [3], Cox и Поводком [4], и Маги [5] для моделей логистической регрессии.

Чтобы получить любое из этих значений как скаляр, индексируйте в свойство с помощью записи через точку. Например, чтобы получить настроенное значение R-squared в модели mdl, Введите:

r2 = mdl.Rsquared.Adjusted

Типы данных: struct

`SSE` — Сумма квадратичных невязок
числовое значение

Это свойство доступно только для чтения.

Сумма квадратичных невязок (остаточные значения) в виде числового значения.

Типы данных: single | double

`SSR` — Сумма квадратов регрессии
числовое значение

Это свойство доступно только для чтения.

Сумма квадратов регрессии в виде числового значения. Сумма квадратов регрессии равна сумме отклонений в квадрате подходящих значений от их среднего значения.

Типы данных: single | double

`SST` — Полная сумма квадратов
числовое значение

Это свойство доступно только для чтения.

Полная сумма квадратов в виде числового значения. Полная сумма квадратов равна сумме отклонений в квадрате вектора отклика y от mean(y).

Типы данных: single | double

Подходящая информация

`Steps` — Пошагово подходящая информация
структура

Это свойство доступно только для чтения.

Пошагово подходящая информация в виде структуры с полями, описанными в этой таблице.

Поле	Описание
`Start`	Формула, представляющая стартовую модель
`Lower`	Формула, представляющая модель нижней границы. Условия в `Lower` должен остаться в модели.
`Upper`	Формула, представляющая модель верхней границы. Модель не может содержать больше условий, чем `Upper`.
`Criterion`	Критерий используется для пошагового алгоритма, такого как `'sse'`
`PEnter`	Порог для `Criterion` добавить термин
`PRemove`	Порог для `Criterion` удалить термин
`History`	Таблица, представляющая шаги, сделанные в подгонке

History таблица содержит одну строку для каждого шага, включая начальную подгонку и столбцы, описанные в этой таблице.

Столбец	Описание
`Action`	Меры приняты во время шага: `'Start'` — Первый шаг `'Add'` — Термин добавляется `'Remove'` — Термин удален
`TermName`	Если `Action` `'Start'`, `TermName` задает стартовую спецификацию модели. Если `Action` `'Add'` или `'Remove'`, `TermName` задает термин, добавленный или удаленный на шаге.
`Terms`	Спецификация модели в Матрице Условий
`DF`	Степени свободы регрессии после шага
`delDF`	Изменитесь в степенях свободы регрессии от предыдущего шага (отрицательный для шагов, которые удаляют термин),
`Deviance`	Отклонение (остаточная сумма квадратов) на шаге (только для обобщенной линейной модели регрессии)
`FStat`	F-статистическая-величина, которая приводит к шагу
`PValue`	p-значение F-статистической-величины

Структура пуста, если вы не подбираете модель с помощью ступенчатой регрессии.

Типы данных: struct

Входные данные

`Distribution` — Обобщенная информация о распределении
структура

Это свойство доступно только для чтения.

Обобщенная информация о распределении в виде структуры с полями, описанными в этой таблице.

Поле	Описание
`Name`	Имя распределения: `'normal'`, `'binomial'`, `'poisson'\Gamma`, или `'inverse gaussian'`
`DevianceFunction`	Функция, которая вычисляет компоненты отклонения в зависимости от подходящих значений параметров и значений отклика
`VarianceFunction`	Функция, которая вычисляет теоретическое отклонение для распределения в зависимости от подходящих значений параметров. Когда `DispersionEstimated` `true`, программное обеспечение умножает функцию отклонения на `Dispersion` в расчете содействующих стандартных погрешностей.

Типы данных: struct

`Formula` — Информация модели
`LinearFormula` объект

Это свойство доступно только для чтения.

Информация модели в виде LinearFormula объект.

Отобразите формулу подобранной модели mdl использование записи через точку:

mdl.Formula

`Link` — Функция ссылки
структура

Это свойство доступно только для чтения.

Функция ссылки в виде структуры с полями, описанными в этой таблице.

Поле	Описание
`Name`	Имя ссылки функционирует в виде вектора символов. Если вы задаете функцию ссылки использование указателя на функцию, то `Name` `''`.
`Link`	Функциональный f, который задает функцию ссылки в виде указателя на функцию
`Derivative`	Производная f в виде указателя на функцию
`Inverse`	Инверсия f в виде указателя на функцию

Функцией ссылки является функциональный f, который соединяет параметр распределения μ с подходящей линейной комбинацией Xb предикторов:

f (μ) = Xb.

Типы данных: struct

`NumObservations` — Количество наблюдений
положительное целое число

Это свойство доступно только для чтения.

Количество наблюдений подходящая функция используется в подборе кривой в виде положительного целого числа. NumObservations количество наблюдений, предоставленных в исходной таблице, наборе данных или матрице, минус любые исключенные строки (набор с 'Exclude' аргумент пары "имя-значение") или строки с отсутствующими значениями.

Типы данных: double

`NumPredictors` — Количество переменных предикторов
положительное целое число

Это свойство доступно только для чтения.

Количество переменных предикторов раньше подбирало модель в виде положительного целого числа.

Типы данных: double

`NumVariables` — Количество переменных
положительное целое число

Это свойство доступно только для чтения.

Количество переменных во входных данных в виде положительного целого числа. NumVariables количество переменных в исходной таблице или наборе данных или общем количестве столбцов в матрице предиктора и векторе отклика.

NumVariables также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: double

`ObservationInfo` — Информация о наблюдении
таблица

Это свойство доступно только для чтения.

Информация о наблюдении в виде n-by-4 таблица, где n равен количеству строк входных данных. ObservationInfo содержит столбцы, описанные в этой таблице.

Столбец	Описание
`Weights`	Веса наблюдения в виде числового значения. Значением по умолчанию является `1`.
`Excluded`	Индикатор исключенных наблюдений в виде логического значения. Значением является `true` если вы исключаете наблюдение из подгонки при помощи `'Exclude'` аргумент пары "имя-значение".
`Missing`	Индикатор недостающих наблюдений в виде логического значения. Значением является `true` если наблюдение отсутствует.
`Subset`	Индикатор того, использует ли подходящая функция наблюдение в виде логического значения. Значением является `true` если наблюдение не исключено или пропавшие без вести, означая, что подходящая функция использует наблюдение.

Чтобы получить любой из этих столбцов как вектор, индексируйте в свойство с помощью записи через точку. Например, получите вектор веса w из модели mdl:

w = mdl.ObservationInfo.Weights

Типы данных: table

`ObservationNames` — Имена наблюдения
массив ячеек из символьных векторов

Это свойство доступно только для чтения.

Наблюдение называет в виде массива ячеек из символьных векторов, содержащего имена наблюдений используемый в подгонке.

Если подгонка основана на таблице или наборе данных, содержащем имена наблюдения, ObservationNames использование те имена.
В противном случае, ObservationNames массив пустой ячейки.

Типы данных: cell

`Offset` — Переменная Offset
числовой вектор

Это свойство доступно только для чтения.

Возместите переменную в виде числового вектора с той же длиной как количество строк в данных. Offset передается от fitglm или stepwiseglm в 'Offset' аргумент пары "имя-значение". Подходящие функции используют Offset как дополнительный переменный предиктор с содействующим значением, зафиксированным в 1. Другими словами, формула для подбора кривой

f (μ) ~ Offset + (terms involving real predictors)

где f является функцией ссылки. Offset предиктор имеет коэффициент 1.

Например, рассмотрите модель регрессии Пуассона. Предположим, что количество количеств известно по теоретическим причинам быть пропорциональным предиктору A. При помощи журнала соединяют функцию и путем определения log(A) как смещение, можно обеспечить модель, чтобы удовлетворить этому теоретическому ограничению.

Типы данных: double

`PredictorNames` — Имена предикторов раньше подбирали модель
массив ячеек из символьных векторов

Это свойство доступно только для чтения.

Имена предикторов раньше подбирали модель в виде массива ячеек из символьных векторов.

Типы данных: cell

`ResponseName` — Имя переменной отклика
символьный вектор

Это свойство доступно только для чтения.

Имя переменной отклика в виде вектора символов.

Типы данных: char

`VariableInfo` — Информация о переменных
таблица

Это свойство доступно только для чтения.

Информация о переменных содержится в VariablesВ виде таблицы с одной строкой для каждой переменной и столбцов, описанных в этой таблице.

Столбец	Описание
`Class`	Переменный класс в виде массива ячеек из символьных векторов, такого как `'double'` и `'categorical'`
`Range`	Переменный диапазон в виде массива ячеек векторов Непрерывная переменная — Двухэлементный вектор `[minMax ]`, минимальные и максимальные значения Категориальная переменная — Вектор из отличных значений переменных
`InModel`	Индикатор которого переменные находятся в подобранной модели в виде логического вектора. Значением является `true` если модель включает переменную.
`IsCategorical`	Индикатор категориальных переменных в виде логического вектора. Значением является `true` если переменная является категориальной.

VariableInfo также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: table

`VariableNames` — Имена переменных
массив ячеек из символьных векторов

Это свойство доступно только для чтения.

Имена переменных в виде массива ячеек из символьных векторов.

Если подгонка основана на таблице или наборе данных, это свойство обеспечивает имена переменных в таблице или наборе данных.
Если подгонка основана на матрице предиктора и векторе отклика, VariableNames содержит значения, заданные 'VarNames' аргумент пары "имя-значение" подходящего метода. Значение по умолчанию 'VarNames' {'x1','x2',...,'xn','y'}.

VariableNames также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: cell

`Variables` — Входные данные
таблица

Это свойство доступно только для чтения.

Входные данные в виде таблицы. Variables содержит и предиктор и значения отклика. Если подгонка основана на таблице или массиве набора данных, Variables содержит все данные из массива набора данных или таблицы. В противном случае, Variables таблица, составленная из матрицы входных данных X и вектор отклика y.

Variables также включает любые переменные, которые не используются, чтобы подбирать модель как предикторы или как ответ.

Типы данных: table

Функции объекта

развернуть все

Создайте `CompactGeneralizedLinearModel`

compact Компактная обобщенная линейная модель регрессии

Добавьте или удалите условия из обобщенной линейной модели

`addTerms`	Добавьте условия в обобщенную линейную модель регрессии
`removeTerms`	Удалите условия из обобщенной линейной модели регрессии
`step`	Улучшите обобщенную линейную модель регрессии путем добавления или удаления условий

Предскажите ответы

`feval`	Предскажите ответы обобщенной линейной модели регрессии использование входа того для каждого предиктора
`predict`	Предскажите ответы обобщенной линейной модели регрессии
`random`	Симулируйте ответы со случайным шумом для обобщенной линейной модели регрессии

Оцените обобщенную линейную модель

`coefCI`	Доверительные интервалы содействующих оценок обобщенной линейной модели регрессии
`coefTest`	Линейный тест гипотезы на обобщенных линейных коэффициентах модели регрессии
`devianceTest`	Анализ отклонения для обобщенной линейной модели регрессии
`partialDependence`	Вычислите частичную зависимость

Визуализируйте обобщенную линейную и итоговую статистику модели

`plotDiagnostics`	Постройте диагностику наблюдения обобщенной линейной модели регрессии
`plotPartialDependence`	Создайте графики отдельного условного ожидания (ICE) и частичный график зависимости (PDP)
`plotResiduals`	Постройте остаточные значения обобщенной линейной модели регрессии
`plotSlice`	График срезов через подходящую обобщенную линейную поверхность регрессии

Соберите свойства обобщенной линейной модели

gather Соберите свойства модели машинного обучения от графического процессора

Примеры

свернуть все

Создайте обобщенную линейную модель регрессии

Скрипт Open Live Script

Подбирайте модель логистической регрессии вероятности курения в зависимости от возраста, веса и пола, с помощью двухсторонней модели взаимодействия.

Загрузите hospital набор данных.

load hospital

Преобразуйте массив набора данных в таблицу.

tbl = dataset2table(hospital);

Задайте модель с помощью формулы, которая включает двухсторонние взаимодействия и условия более низкоуровневые.

modelspec = 'Smoker ~ Age*Weight*Sex - Age:Weight:Sex';

Создайте обобщенную линейную модель.

mdl = fitglm(tbl,modelspec,'Distribution','binomial')

mdl = 
Generalized linear regression model:
    logit(Smoker) ~ 1 + Sex*Age + Sex*Weight + Age*Weight
    Distribution = Binomial

Estimated Coefficients:
                        Estimate         SE         tStat      pValue 
                       ___________    _________    ________    _______

    (Intercept)            -6.0492       19.749     -0.3063    0.75938
    Sex_Male               -2.2859       12.424    -0.18399    0.85402
    Age                    0.11691      0.50977     0.22934    0.81861
    Weight                0.031109      0.15208     0.20455    0.83792
    Sex_Male:Age          0.020734      0.20681     0.10025    0.92014
    Sex_Male:Weight        0.01216     0.053168     0.22871     0.8191
    Age:Weight         -0.00071959    0.0038964    -0.18468    0.85348


100 observations, 93 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 5.07, p-value = 0.535

Большое p-значение указывает, что сила модели не отличается статистически от константы.

Создайте обобщенную линейную модель регрессии Используя ступенчатую регрессию

Скрипт Open Live Script

Создайте данные об ответе с помощью трех из 20 переменных предикторов и создайте обобщенную линейную модель с помощью ступенчатой регрессии из постоянной модели, чтобы видеть если stepwiseglm находит правильные предикторы.

Сгенерируйте выборочные данные, которые имеют 20 переменных предикторов. Используйте три из предикторов, чтобы сгенерировать переменную отклика Пуассона.

rng default % for reproducibility
X = randn(100,20);
mu = exp(X(:,[5 10 15])*[.4;.2;.3] + 1);
y = poissrnd(mu);

Подбирайте обобщенную линейную модель регрессии использование распределения Пуассона. Задайте стартовую модель как модель, которая содержит только константу (точка пересечения) термин. Кроме того, задайте модель с точкой пересечения и линейным членом для каждого предиктора как самая большая модель, чтобы рассмотреть как подгонку при помощи 'Upper' аргумент пары "имя-значение".

mdl =  stepwiseglm(X,y,'constant','Upper','linear','Distribution','poisson')

1. Adding x5, Deviance = 134.439, Chi2Stat = 52.24814, PValue = 4.891229e-13
2. Adding x15, Deviance = 106.285, Chi2Stat = 28.15393, PValue = 1.1204e-07
3. Adding x10, Deviance = 95.0207, Chi2Stat = 11.2644, PValue = 0.000790094

mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x5 + x10 + x15
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE       tStat       pValue  
                   ________    ________    ______    __________

    (Intercept)     1.0115     0.064275    15.737    8.4217e-56
    x5             0.39508     0.066665    5.9263    3.0977e-09
    x10            0.18863      0.05534    3.4085     0.0006532
    x15            0.29295     0.053269    5.4995    3.8089e-08


100 observations, 96 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 91.7, p-value = 9.61e-20

stepwiseglm находит три правильных предиктора: x5, x10, и x15.

Больше о

развернуть все

Каноническая функция ссылки

Функцией ссылки по умолчанию для обобщенной линейной модели является canonical link function. Можно задать функцию ссылки, когда вы подбираете модель с fitglm или stepwiseglm при помощи 'Link' аргумент пары "имя-значение".

Распределение	Каноническое имя функции ссылки	Функция ссылки	Средняя (обратная) функция
`'normal'`	`'identity'`	f (μ) = μ	μ = Xb
`'binomial'`	`'logit'`	f (μ) = журнал (μ / (1 – μ))	μ = exp (Xb) / (1 + exp (Xb))
`'poisson'`	`'log'`	f (μ) = журнал (μ)	μ = exp (Xb)
`'gamma'`	-1	f (μ) = 1/μ	μ = 1 / (Xb)
`'inverse gaussian'`	-2	f (μ) = 1/μ2	μ = (Xb) ^–1/2

Расстояние повара

Расстояние Кука является масштабированным изменением в подходящих значениях, которое полезно для идентификации выбросов в наблюдениях для переменных предикторов. Расстояние Кука показывает влияние каждого наблюдения относительно подходящих значений отклика. Наблюдение с расстоянием Кука, больше, чем три раза расстояние среднего Кука, может быть выбросом.

Расстояние Повара _Di наблюдения i

$D_{i} = w_{i} \frac{e_{i}^{2}}{p \hat{φ}} \frac{h_{i i}}{{(1 - h_{i i})}^{2}},$

где

$\hat{φ}$ дисперсионный параметр (оцененный или теоретический).
_ei является линейной невязкой предиктора, $g (y_{i}) - x_{i} \hat{β}$ , где
- g является функцией ссылки.
- _yi является наблюдаемым ответом.
- _xi является наблюдением.
- $\hat{β}$ предполагаемый вектор коэффициентов.
p является количеством коэффициентов в модели регрессии.
_hii является i th диагональный элемент Матрицы Шляпы H.

Рычаги

Рычаги являются мерой эффекта конкретного наблюдения относительно предсказаний регрессии из-за положения того наблюдения в течение входных параметров.

Рычаги наблюдения, i является значением i th диагональ, называют h _ii матрицы шляпы H. Поскольку суммой значений рычагов является p (количество коэффициентов в модели регрессии), наблюдение, i может быть рассмотрен выбросом, если его рычаги существенно превышают p/n, где n является количеством наблюдений.

Матрица шляпы

Матрица шляпы является матрицей проекции, которая проектирует вектор из наблюдений ответа на вектор из предсказаний.

Матрица шляпы H задана в терминах матрицы данных X и диагональная матрица веса W:

H = X (^XTWX) ^–1XT^WT.

W имеет диагональные элементы _wi:

$w_{i} = \frac{g^{'} (μ_{i})}{\sqrt{V (μ_{i})}},$

где

g является функцией ссылки отображение _yi к _xib.
$g^{'}$ производная функции ссылки g.
V является функцией отклонения.
_μi является i th среднее значение.

Диагональные элементы _Hii удовлетворяют

$\begin{array}{l} 0 \leq h_{i i} \leq 1 \\ \sum_{i = 1}^{n} h_{i i} = p, \end{array}$

где n является количеством наблюдений (строки X), и p является количеством коэффициентов в модели регрессии.

Отклонение

Отклонение является обобщением остаточной суммы квадратов. Это измеряет качество подгонки по сравнению с влажной моделью.

Отклонение модели M₁ является дважды различием между логарифмической правдоподобностью модели M₁ и влажной моделью M _s. Влажная модель является моделью с максимальным количеством параметров, которые можно оценить.

Например, если у вас есть наблюдения n (y _i, i = 1, 2..., n) с потенциально различными значениями для X _i ^Tβ, затем можно задать влажную модель параметрами n. Позвольте L (b, y) обозначают максимальное значение функции правдоподобия для модели параметрами b. Затем отклонение модели M₁

$- 2 (\log L (b_{1}, y) - \log L (b_{S}, y)),$

где b ₁ и b _s содержит предполагаемые параметры для модели M₁ и влажной модели, соответственно. Отклонение имеет распределение хи-квадрат с n – степени свободы p, где n является количеством параметров во влажной модели, и p является количеством параметров в модели M₁.

Примите, что у вас есть две различных обобщенных линейных модели M регрессии ₁ и M ₂, и M ₁ имеет подмножество условий в M ₂. Можно оценить припадок моделей путем сравнения отклонений D ₁ и D ₂ из этих двух моделей. Различие отклонений

$\begin{array}{l} D = D_{2} - D_{1} = - 2 (\log L (b_{2}, y) - \log L (b_{S}, y)) + 2 (\log L (b_{1}, y) - \log L (b_{S}, y)) \\ = - 2 (\log L (b_{2}, y) - \log L (b_{1}, y)) . \end{array}$

Асимптотически, различие D имеет распределение хи-квадрат со степенями свободы v, равный различию в количестве параметров, оцененных в M ₁ и M ₂. Можно получить p - значение для этого теста при помощи 1 – chi2cdf(D,v).

Как правило, вы исследуете D с помощью модели M₂ с постоянным термином и никакими предикторами. Поэтому D имеет распределение хи-квадрат с p – 1 степень свободы. Если дисперсия оценивается, различие, разделенное на предполагаемую дисперсию, имеет распределение F с p – 1 степенью свободы числителя и n – степени свободы знаменателя p.

Матрица условий

Матрица условий T t (p + 1) матричные условия определения в модели, где t является количеством условий, p является количеством переменных предикторов и +1 счетом на переменную отклика. Значение T(i,j) экспонента переменной j в термине i.

Например, предположите, что вход включает три переменных предиктора x1x2 , и x3 и переменная отклика y в порядке x1x2 , x3, и y. Каждая строка T представляет один термин:

[0 0 0 0] — Постоянный термин или точка пересечения
[0 1 0 0] x2 ; эквивалентно, x1^0 * x2^1 * x3^0
[1 0 1 0] — x1*x3
[2 0 0 0] — x1^2
[0 1 2 0] — x2*(x3^2)

0 в конце каждого термина представляет переменную отклика. В общем случае вектор-столбец из нулей в матрице условий представляет положение переменной отклика. Если у вас есть переменные прогноза и переменные отклика в матрице и вектор-столбце, то необходимо включать 0 для переменной отклика в последнем столбце каждой строки.

Ссылки

[1] Макфадден, Дэниел. "Условный анализ логита качественного поведения выбора". в Границах в Эконометрике, отредактированной П. Зэрембкой, 105–42. Нью-Йорк: Academic Press, 1974.

[2] Nagelkerke, N. J. D. "Примечание по Общему Определению Коэффициента детерминации". Biometrika 78, № 3 (1991): 691–92.

[3] Maddala, Гэнгэдхаррэо С. Ограничено-зависимые и качественные переменные в эконометрике. Эконометрические общественные монографии. Нью-Йорк, Нью-Йорк: Издательство Кембриджского университета, 1983.

[4] Cox, D. R. и Э. Дж. Снелл. Анализ Двоичных данных. 2-е монографии редактора на Статистике и Прикладной Вероятности 32. Лондон; Нью-Йорк: Чепмен и Холл, 1989.

[5] Маги, Лонни. "Меры по R 2 На основе Тестов Значения Соединения Вальда и Отношения правдоподобия". Американский Статистик 44, № 3 (август 1990): 250–53.

Расширенные возможности

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Указания и ограничения по применению:

predict и random функции поддерживают генерацию кода.
Когда вы подбираете модель при помощи fitglm или stepwiseglm, вы не можете задать Link, Derivative, и Inverse поля 'Link' аргумент пары "имя-значение" как анонимные функции. Таким образом, вы не можете сгенерировать код с помощью обобщенной линейной модели, которая была создана с помощью анонимных функций для ссылок. Вместо этого задайте функции для компонентов ссылки.

Для получения дополнительной информации смотрите Введение в Генерацию кода.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Указания и ограничения по применению:

Следующие объектные функции полностью поддерживают массивы графического процессора:
Следующий объект функционирует объекты модели поддержки, снабженные входными параметрами графического процессора массивов:

Для получения дополнительной информации смотрите функции MATLAB Запуска на графическом процессоре (Parallel Computing Toolbox).

Темы

Представленный в R2012a

Документация

GeneralizedLinearModel

Описание

Создание

Свойства

Содействующие оценки

CoefficientCovariance — Ковариационная матрица содействующих оценок числовая матрица

CoefficientNames — Содействующие имена массив ячеек из символьных векторов

Coefficients — Содействующие значения таблица

NumCoefficients — Количество коэффициентов модели положительное целое число

NumEstimatedCoefficients — Количество предполагаемых коэффициентов положительное целое число

Итоговая статистика

Deviance — Отклонение подгонки числовое значение

DFE — Степени свободы для ошибки положительное целое число

Diagnostics — Диагностика наблюдения таблица

Dispersion — Масштабный коэффициент отклонения ответа числовой скаляр

DispersionEstimated — Отметьте, чтобы указать на использование дисперсионного масштабного коэффициента логическое значение

Fitted — Подходящие значения отклика на основе входных данных таблица

LogLikelihood — Логарифмическая правдоподобность числовое значение

ModelCriterion — Критерий сравнения модели структура

Residuals — Остаточные значения для подобранной модели таблица

Rsquared — Значение R-squared для модели структура

SSE — Сумма квадратичных невязок числовое значение

SSR — Сумма квадратов регрессии числовое значение

SST — Полная сумма квадратов числовое значение

Подходящая информация

Steps — Пошагово подходящая информация структура

Входные данные

Distribution — Обобщенная информация о распределении структура

Formula — Информация модели LinearFormula объект

Link — Функция ссылки структура

NumObservations — Количество наблюдений положительное целое число

NumPredictors — Количество переменных предикторов положительное целое число

NumVariables — Количество переменных положительное целое число

ObservationInfo — Информация о наблюдении таблица

ObservationNames — Имена наблюдения массив ячеек из символьных векторов

Offset — Переменная Offset числовой вектор

PredictorNames — Имена предикторов раньше подбирали модель массив ячеек из символьных векторов

ResponseName — Имя переменной отклика символьный вектор

VariableInfo — Информация о переменных таблица

VariableNames — Имена переменных массив ячеек из символьных векторов

Variables — Входные данные таблица

Функции объекта

Создайте CompactGeneralizedLinearModel

Добавьте или удалите условия из обобщенной линейной модели

Предскажите ответы

Оцените обобщенную линейную модель

Визуализируйте обобщенную линейную и итоговую статистику модели

Соберите свойства обобщенной линейной модели

Примеры

Создайте обобщенную линейную модель регрессии

Создайте обобщенную линейную модель регрессии Используя ступенчатую регрессию

Больше о

Каноническая функция ссылки

Расстояние повара

Рычаги

Матрица шляпы

Отклонение

Матрица условий

Ссылки

Расширенные возможности

Генерация кода C/C++ Генерация кода C и C++ с помощью MATLAB® Coder™.

Массивы графического процессора Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.

Смотрите также

Темы

Документация Statistics and Machine Learning Toolbox

Поддержка

`CoefficientCovariance` — Ковариационная матрица содействующих оценок
числовая матрица

`CoefficientNames` — Содействующие имена
массив ячеек из символьных векторов

`Coefficients` — Содействующие значения
таблица

`NumCoefficients` — Количество коэффициентов модели
положительное целое число

`NumEstimatedCoefficients` — Количество предполагаемых коэффициентов
положительное целое число

`Deviance` — Отклонение подгонки
числовое значение

`DFE` — Степени свободы для ошибки
положительное целое число

`Diagnostics` — Диагностика наблюдения
таблица

`Dispersion` — Масштабный коэффициент отклонения ответа
числовой скаляр

`DispersionEstimated` — Отметьте, чтобы указать на использование дисперсионного масштабного коэффициента
логическое значение

`Fitted` — Подходящие значения отклика на основе входных данных
таблица

`LogLikelihood` — Логарифмическая правдоподобность
числовое значение

`ModelCriterion` — Критерий сравнения модели
структура

`Residuals` — Остаточные значения для подобранной модели
таблица

`Rsquared` — Значение R-squared для модели
структура

`SSE` — Сумма квадратичных невязок
числовое значение

`SSR` — Сумма квадратов регрессии
числовое значение

`SST` — Полная сумма квадратов
числовое значение

`Steps` — Пошагово подходящая информация
структура

`Distribution` — Обобщенная информация о распределении
структура

`Formula` — Информация модели
`LinearFormula` объект

`Link` — Функция ссылки
структура

`NumObservations` — Количество наблюдений
положительное целое число

`NumPredictors` — Количество переменных предикторов
положительное целое число

`NumVariables` — Количество переменных
положительное целое число

`ObservationInfo` — Информация о наблюдении
таблица

`ObservationNames` — Имена наблюдения
массив ячеек из символьных векторов

`Offset` — Переменная Offset
числовой вектор

`PredictorNames` — Имена предикторов раньше подбирали модель
массив ячеек из символьных векторов

`ResponseName` — Имя переменной отклика
символьный вектор

`VariableInfo` — Информация о переменных
таблица

`VariableNames` — Имена переменных
массив ячеек из символьных векторов

`Variables` — Входные данные
таблица

Создайте `CompactGeneralizedLinearModel`

Генерация кода C/C++
Генерация кода C и C++ с помощью MATLAB® Coder™.

Массивы графического процессора
Ускорьте код путем работы графического процессора (GPU) с помощью Parallel Computing Toolbox™.