Линейная регрессионая модель описывает отношение между зависимой переменной, y и одной или несколькими независимыми переменными, X. Зависимая переменная также называется переменной отклика. Независимые переменные также называются объяснительными или предикторными переменными. Непрерывные переменные предиктора также называются ковариатами, а категориальные переменные предиктора также называются факторами. Матрица X наблюдений за переменными предиктора обычно называется проектом матрицы.
Множественная линейная регрессионая модель
где
yi - i-й ответ.
β k является k-м коэффициентом, где β 0 - это постоянный член в модели. Иногда матрицы проекта могут включать информацию о постоянном члене. Однако fitlm
или stepwiselm
по умолчанию включает постоянный члена в модели, поэтому вы не должны вводить столбец 1s в X матрицы проекта.
X ij является i-м наблюдением за j-й переменной предиктора j = 1,..., p.
εi - i шум, то есть случайная ошибка.
Если модель включает только одну переменную предиктора (p = 1), то модель называется простой линейной регрессионой.
В целом линейная регрессионая модель может быть моделью вида
где f (.) - скалярная функция независимых переменных, X ij s. Функции, f (X), могут быть в любой форме, включая нелинейные функции или полиномы. Линейность в линейных регрессионых моделях относится к линейности коэффициентов β k. То есть переменная отклика, y, является линейной функцией коэффициентов, β k.
Некоторые примеры линейных моделей:
Следующие, однако, не являются линейными моделями, поскольку они не являются линейными в неизвестных коэффициентах, β k.
Обычными предположениями для линейных регрессионых моделей являются:
Условия шума, εi, некоррелированы.
Члены шума, ε i, имеют независимые и идентичные нормальные распределения со средним нулями и постоянными отклонениями2. Таким образом,
и
Таким образом, дисперсия y i одинаковая для всех уровней X ij.
Ответы y i являются некоррелированными.
Установленная линейная функция
где - предполагаемый ответ, и bk s - установленные коэффициенты. Коэффициенты оцениваются так, чтобы минимизировать среднее квадратное различие между вектором предсказания и истинный вектор отклика , то есть . Этот метод называется методом наименьших квадратов. При допущениях на условиях шума эти коэффициенты также максимизируют вероятность вектора предсказания.
В модели линейной регрессии формы <reservedrangesplaceholder18> = <reservedrangesplaceholder17> 1 <reservedrangesplaceholder16> 1 + <reservedrangesplaceholder15> 2 <reservedrangesplaceholder14> 2 +... + <reservedrangesplaceholder13> <reservedrangesplaceholder12> X <reservedrangesplaceholder11>, коэффициент <reservedrangesplaceholder10> <reservedrangesplaceholder9> выражает влияние изменения с одним модулем в переменной предсказателя, Xj, на среднем из ответа E (<reservedrangesplaceholder7>), при условии, что все другие переменные считаются постоянными. Знак коэффициента задает направление эффекта. Например, если линейная модель является E (y) = 1,8 - 2,35 X 1 + X 2, то -2,35 указывает на уменьшение средней характеристики на 2,35 единицы с увеличением на одну единицу в X 1, заданное X 2 поддерживается постоянным. Если модель является E (y) = 1,1 + 1,5 X 12 + X 2, коэффициент X 12 указывает на 1,5 модули увеличение среднего значения Y с увеличением X на одну единицу 12 учитывая, что все остальные были постоянными. Однако в случае E (y) = 1.1 + 2.1 X 1 + 1.5 X 12трудно интерпретировать коэффициенты аналогично, поскольку невозможно удерживать X 1 постоянным, когда X 12 изменения или наоборот.
[1] Нетер, Дж., М. Х. Кутнер, К. Дж. Нахтсхайм и У. Вассерман. Примененные линейные статистические модели. IRWIN, The McGraw-Hill Companies, Inc., 1996.
[2] Себер, Г. А. Ф. Линейный регрессионый анализ. Серия Вайли в вероятностной и математической статистике. John Wiley and Sons, Inc., 1977.
fitlm
| LinearModel
| stepwiselm