Модель линейной регрессии описывает связь между зависимой переменной y и одной или несколькими независимыми переменными X. Зависимая переменная также называется переменной отклика. Независимые переменные также называются объяснительными или предикторными переменными. Непрерывные предикторные переменные также называются ковариатами, а категориальные предикторные переменные также называются факторами. Матрица X наблюдений за переменными предиктора обычно называется конструктивной матрицей.
Модель множественной линейной регрессии
где
yi - это i-й ответ.
βk - k-й коэффициент, где β0 - постоянный член в модели. Иногда матрицы проектирования могут включать в себя информацию о постоянном члене. Однако fitlm или stepwiselm по умолчанию включает в модель постоянный член, поэтому не следует вводить столбец 1 в матрицу конструкции X.
Xij - i-е наблюдение на j-й прогнозирующей переменной, j = 1,..., p.
αi - i-й член шума, то есть случайная ошибка.
Если модель включает только одну предикторную переменную (p = 1), то модель называется простой моделью линейной регрессии.
В общем случае модель линейной регрессии может быть моделью формы
i=1,⋯,n,
где f (.) - скалярно-значная функция независимых переменных, Xijs. Функции f (X) могут быть в любой форме, включая нелинейные функции или многочлены. Линейность в моделях линейной регрессии относится к линейности коэффициентов βk. То есть переменная отклика, y, является линейной функцией коэффициентов, βk.
Некоторые примеры линейных моделей:
+ β2X2i + β3X1iX2i + β4li
Следующие, однако, не являются линейными моделями, поскольку они не являются линейными в неизвестных коэффициентах, βk.
1β2X2i + eβ3X1iX2i + αi
Обычные допущения для моделей линейной регрессии:
Шумовые термины, αi, не коррелируются.
Шумовые члены, αi, имеют независимые и идентичные нормальные распределения со средним нулем и постоянной дисперсией, start2. Таким образом,
Xi1,Xi2,⋯,Xip)
и
V (αi) = start2
Итак, дисперсия yi одинакова для всех уровней Xij.
Ответы yi некоррелированы.
Аппроксимированная линейная функция
,
где i - расчетный отклик, а bks - подгоняемые коэффициенты. Коэффициенты оцениваются таким образом, чтобы минимизировать среднеквадратичную разницу между прогнозирования
В модели линейной регрессии вида y = β1X1 + β2X2 +... + βpXp коэффициент βk выражает влияние одноблочного изменения предикторной переменной Xj на среднее значение отклика E (y) при условии, что все остальные переменные поддерживаются постоянными. Знак коэффициента даёт направление эффекта. Например, если линейная модель равна E (y) = 1,8 - 2.35X1 + X2, то -2,35 указывает на уменьшение на 2,35 единицы в среднем отклике при одноблочном увеличении X1, учитывая, X2 поддерживается постоянным. Если модель имеет значение E (y) = 1,1 + 1.5X12 + X2, коэффициент X12 указывает на увеличение среднего значения Y на 1,5 единицы при увеличении X12 на одну единицу, учитывая все остальные постоянные значения. Однако в случае E (y) = 1,1 + 2.1X1 + 1.5X12 трудно интерпретировать коэффициенты аналогично, так как невозможно удерживать X1 постоянной при изменении X12 или наоборот.
[1] Нетер, Дж., М. Х. Кутнер, С. Дж. Нахтсхайм и В. Вассерман. Примененные линейные статистические модели. IRWIN, The McGraw-Hill Companies, Inc., 1996.
[2] Себер, Г. А. Ф. Анализ линейной регрессии. Серия Уайли в вероятностной и математической статистике. John Wiley and Sons, Inc., 1977.
fitlm | LinearModel | stepwiselm