exponenta event banner

Что такое модель линейной регрессии?

Модель линейной регрессии описывает связь между зависимой переменной y и одной или несколькими независимыми переменными X. Зависимая переменная также называется переменной отклика. Независимые переменные также называются объяснительными или предикторными переменными. Непрерывные предикторные переменные также называются ковариатами, а категориальные предикторные переменные также называются факторами. Матрица X наблюдений за переменными предиктора обычно называется конструктивной матрицей.

Модель множественной линейной регрессии

yi=β0+β1Xi1+β2Xi2+⋯+βpXip+εi, i=1,⋯,n,

где

  • yi - это i-й ответ.

  • βk - k-й коэффициент, где β0 - постоянный член в модели. Иногда матрицы проектирования могут включать в себя информацию о постоянном члене. Однако fitlm или stepwiselm по умолчанию включает в модель постоянный член, поэтому не следует вводить столбец 1 в матрицу конструкции X.

  • Xij - i-е наблюдение на j-й прогнозирующей переменной, j = 1,..., p.

  • αi - i-й член шума, то есть случайная ошибка.

Если модель включает только одну предикторную переменную (p = 1), то модель называется простой моделью линейной регрессии.

В общем случае модель линейной регрессии может быть моделью формы

yi=β0+∑k=1Kβkfk (Xi1,Xi2,⋯,Xip) + αi, i=1,⋯,n,

где f (.) - скалярно-значная функция независимых переменных, Xijs. Функции f (X) могут быть в любой форме, включая нелинейные функции или многочлены. Линейность в моделях линейной регрессии относится к линейности коэффициентов βk. То есть переменная отклика, y, является линейной функцией коэффициентов, βk.

Некоторые примеры линейных моделей:

yi = β0 + β1X1i + β2X2i + β3X3i + βiyi = β0 + β1X1i + β2X2i + β3X1i3 + β4X2i2 + βiyi = β0 + β1X1i + β2X2i + β3X1iX2i + β4li

Следующие, однако, не являются линейными моделями, поскольку они не являются линейными в неизвестных коэффициентах, βk.

logyi = β0 + β1X1i + β2X2i + xpiyi = β0 + β1X1i + 1β2X2i + eβ3X1iX2i + αi

Обычные допущения для моделей линейной регрессии:

  • Шумовые термины, αi, не коррелируются.

  • Шумовые члены, αi, имеют независимые и идентичные нормальные распределения со средним нулем и постоянной дисперсией, start2. Таким образом,

    E (yi) = E (∑k=0Kβkfk (Xi1,Xi2,⋯,Xip) + αi) =∑k=0Kβkfk (Xi1,Xi2,⋯,Xip) + E (αi) =∑k=0Kβkfk (Xi1,Xi2,⋯,Xip)

    и

    V (yi) = V (∑k=0Kβkfk (Xi1,Xi2,⋯,Xip) + αi) = V (αi) = start2

    Итак, дисперсия yi одинакова для всех уровней Xij.

  • Ответы yi некоррелированы.

Аппроксимированная линейная функция

y^i=∑k=0Kbkfk (Xi1,Xi2,⋯,Xip), i=1,⋯,n,

где y ^ i - расчетный отклик, а bks - подгоняемые коэффициенты. Коэффициенты оцениваются таким образом, чтобы минимизировать среднеквадратичную разницу между вектором прогнозирования y и истинным вектором отклика y, то есть y ^ − y. Этот метод называется методом наименьших квадратов. В предположениях относительно шумовых терминов эти коэффициенты также максимизируют вероятность вектора предсказания.

В модели линейной регрессии вида y = β1X1 + β2X2 +... + βpXp коэффициент βk выражает влияние одноблочного изменения предикторной переменной Xj на среднее значение отклика E (y) при условии, что все остальные переменные поддерживаются постоянными. Знак коэффициента даёт направление эффекта. Например, если линейная модель равна E (y) = 1,8 - 2.35X1 + X2, то -2,35 указывает на уменьшение на 2,35 единицы в среднем отклике при одноблочном увеличении X1, учитывая, X2 поддерживается постоянным. Если модель имеет значение E (y) = 1,1 + 1.5X12 + X2, коэффициент X12 указывает на увеличение среднего значения Y на 1,5 единицы при увеличении X12 на одну единицу, учитывая все остальные постоянные значения. Однако в случае E (y) = 1,1 + 2.1X1 + 1.5X12 трудно интерпретировать коэффициенты аналогично, так как невозможно удерживать X1 постоянной при изменении X12 или наоборот.

Ссылки

[1] Нетер, Дж., М. Х. Кутнер, С. Дж. Нахтсхайм и В. Вассерман. Примененные линейные статистические модели. IRWIN, The McGraw-Hill Companies, Inc., 1996.

[2] Себер, Г. А. Ф. Анализ линейной регрессии. Серия Уайли в вероятностной и математической статистике. John Wiley and Sons, Inc., 1977.

См. также

| |

Связанные темы