Что такое линейная регрессионая модель?

Линейная регрессионая модель описывает отношение между зависимой переменной, y и одной или несколькими независимыми переменными, X. Зависимая переменная также называется переменной отклика. Независимые переменные также называются объяснительными или предикторными переменными. Непрерывные переменные предиктора также называются ковариатами, а категориальные переменные предиктора также называются факторами. Матрица X наблюдений за переменными предиктора обычно называется проектом матрицы.

Множественная линейная регрессионая модель

yi=β0+β1Xi1+β2Xi2++βpXip+εi,i=1,,n,

где

  • yi - i-й ответ.

  • β k является k-м коэффициентом, где β 0 - это постоянный член в модели. Иногда матрицы проекта могут включать информацию о постоянном члене. Однако fitlm или stepwiselm по умолчанию включает постоянный члена в модели, поэтому вы не должны вводить столбец 1s в X матрицы проекта.

  • X ij является i-м наблюдением за j-й переменной предиктора j = 1,..., p.

  • εi - i шум, то есть случайная ошибка.

Если модель включает только одну переменную предиктора (p = 1), то модель называется простой линейной регрессионой.

В целом линейная регрессионая модель может быть моделью вида

yi=β0+k=1Kβkfk(Xi1,Xi2,,Xip)+εi,i=1,,n,

где f (.) - скалярная функция независимых переменных, X ij s. Функции, f (X), могут быть в любой форме, включая нелинейные функции или полиномы. Линейность в линейных регрессионых моделях относится к линейности коэффициентов β k. То есть переменная отклика, y, является линейной функцией коэффициентов, β k.

Некоторые примеры линейных моделей:

yi=β0+β1X1i+β2X2i+β3X3i+εiyi=β0+β1X1i+β2X2i+β3X1i3+β4X2i2+εiyi=β0+β1X1i+β2X2i+β3X1iX2i+β4logX3i+εi

Следующие, однако, не являются линейными моделями, поскольку они не являются линейными в неизвестных коэффициентах, β k.

logyi=β0+β1X1i+β2X2i+εiyi=β0+β1X1i+1β2X2i+eβ3X1iX2i+εi

Обычными предположениями для линейных регрессионых моделей являются:

  • Условия шума, εi, некоррелированы.

  • Члены шума, ε i, имеют независимые и идентичные нормальные распределения со средним нулями и постоянными отклонениями2. Таким образом,

    E(yi)=E(k=0Kβkfk(Xi1,Xi2,,Xip)+εi)=k=0Kβkfk(Xi1,Xi2,,Xip)+E(εi)=k=0Kβkfk(Xi1,Xi2,,Xip)

    и

    V(yi)=V(k=0Kβkfk(Xi1,Xi2,,Xip)+εi)=V(εi)=σ2

    Таким образом, дисперсия y i одинаковая для всех уровней X ij.

  • Ответы y i являются некоррелированными.

Установленная линейная функция

y^i=k=0Kbkfk(Xi1,Xi2,,Xip),i=1,,n,

где y^i - предполагаемый ответ, и bk s - установленные коэффициенты. Коэффициенты оцениваются так, чтобы минимизировать среднее квадратное различие между вектором предсказанияy^ и истинный вектор отклика y, то есть y^y. Этот метод называется методом наименьших квадратов. При допущениях на условиях шума эти коэффициенты также максимизируют вероятность вектора предсказания.

В модели линейной регрессии формы <reservedrangesplaceholder18> = <reservedrangesplaceholder17> 1 <reservedrangesplaceholder16> 1 + <reservedrangesplaceholder15> 2 <reservedrangesplaceholder14> 2 +... + <reservedrangesplaceholder13> <reservedrangesplaceholder12> X <reservedrangesplaceholder11>, коэффициент <reservedrangesplaceholder10> <reservedrangesplaceholder9> выражает влияние изменения с одним модулем в переменной предсказателя, Xj, на среднем из ответа E (<reservedrangesplaceholder7>), при условии, что все другие переменные считаются постоянными. Знак коэффициента задает направление эффекта. Например, если линейная модель является E (y) = 1,8 - 2,35 X 1 + X 2, то -2,35 указывает на уменьшение средней характеристики на 2,35 единицы с увеличением на одну единицу в X 1, заданное X 2 поддерживается постоянным. Если модель является E (y) = 1,1 + 1,5 X 12 + X 2, коэффициент X 12 указывает на 1,5 модули увеличение среднего значения Y с увеличением X на одну единицу 12 учитывая, что все остальные были постоянными. Однако в случае E (y) = 1.1 + 2.1 X 1 + 1.5 X 12трудно интерпретировать коэффициенты аналогично, поскольку невозможно удерживать X 1 постоянным, когда X 12 изменения или наоборот.

Ссылки

[1] Нетер, Дж., М. Х. Кутнер, К. Дж. Нахтсхайм и У. Вассерман. Примененные линейные статистические модели. IRWIN, The McGraw-Hill Companies, Inc., 1996.

[2] Себер, Г. А. Ф. Линейный регрессионый анализ. Серия Вайли в вероятностной и математической статистике. John Wiley and Sons, Inc., 1977.

См. также

| |

Похожие темы