Интерпретируйте результаты линейной регрессии

В этом примере показано, как отобразить и интерпретировать статистику выхода линейной регрессии.

Аппроксимация линейной регрессионной модели

Загрузите carsmall набор данных, матричный набор входных данных.

load carsmall
X = [Weight,Horsepower,Acceleration];

Подбор линейной регрессионой модели при помощи fitlm.

lm = fitlm(X,MPG)

lm = 
Linear regression model:
    y ~ 1 + x1 + x2 + x3

Estimated Coefficients:
                    Estimate        SE          tStat        pValue  
                   __________    _________    _________    __________

    (Intercept)        47.977       3.8785        12.37    4.8957e-21
    x1             -0.0065416    0.0011274      -5.8023    9.8742e-08
    x2              -0.042943     0.024313      -1.7663       0.08078
    x3              -0.011583      0.19333    -0.059913       0.95236


Number of observations: 93, Error degrees of freedom: 89
Root Mean Squared Error: 4.09
R-squared: 0.752,  Adjusted R-Squared: 0.744
F-statistic vs. constant model: 90, p-value = 7.38e-27

Отображение модели включает формулу модели, оценочные коэффициенты и сводную статистику модели.

Формула модели на отображении, y ~ 1 + x1 + x2 + x3, соответствует $y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} + ϵ$ .

На отображении модели показана информация об оцененном коэффициенте, которая хранится в Coefficients свойство. Отобразите Coefficients свойство.

lm.Coefficients

ans=4×4 table
                    Estimate        SE          tStat        pValue  
                   __________    _________    _________    __________

    (Intercept)        47.977       3.8785        12.37    4.8957e-21
    x1             -0.0065416    0.0011274      -5.8023    9.8742e-08
    x2              -0.042943     0.024313      -1.7663       0.08078
    x3              -0.011583      0.19333    -0.059913       0.95236

The Coefficient свойство включает в себя следующие столбцы:

Estimate - Оценки коэффициентов для каждого соответствующего члена в модели. Для примера - оценка для постоянного члена (intercept) составляет 47,977.
SE - Стандартная ошибка коэффициентов.
tStat - t-статистическая для каждого коэффициента, чтобы проверить нулевую гипотезу о том, что соответствующий коэффициент равен нулю по сравнению с альтернативой, что он отличается от нуля, учитывая другие предикторы в модели. Обратите внимание, что tStat = Estimate/SE. Для примера t-статистическая величина для точки пересечения составляет 47,977/3,8785 = 12,37.
pValue - p-значение для t-статистики критерия гипотезы о том, что соответствующий коэффициент равен нулю или не равен. Например, p-значение t-статистики для x2 больше 0,05, поэтому этот термин не является значимым на уровне значимости 5%, учитывая другие членов в модели.

Сводная статистика модели:

Number of observations - Количество строк без каких-либо NaN значения. Для примера, Number of observations 93, потому что MPG вектор данных имеет шесть NaN значения и Horsepower вектор данных имеет одно NaN значение для другого наблюдения, где количество строк в X и MPG равен 100.
Error degrees of freedom - n - p, где n - количество наблюдений, а p - количество коэффициентов в модели, включая точку пересечения. Для примера модель имеет четыре предиктора, поэтому Error degrees of freedom 93 - 4 = 89.
Root mean squared error - Квадратный корень средней квадратичной невязки, который оценивает стандартное отклонение распределения ошибок.
R-squared и Adjusted R-squared - Коэффициент детерминации и скорректированный коэффициент детерминации, соответственно. Для примера, R-squared значение предполагает, что модель объясняет приблизительно 75% изменчивости переменной отклика MPG.
F-statistic vs. constant model - Тестовая статистика для F-теста на регрессионой модели, которая проверяет, подходит ли модель значительно лучше, чем вырожденная модель, состоящая только из постоянного члена.
p-value - p-значение для F-теста на модели. Для примера модель значима с p-значением 7.3816e-27.

ДИСПЕРСИОННЫЙ АНАЛИЗ

Выполните дисперсионный анализ (ANOVA) для модели.

anova(lm,'summary')

ans=3×5 table
                SumSq     DF    MeanSq      F         pValue  
                ______    __    ______    ______    __________

    Total       6004.8    92    65.269                        
    Model         4516     3    1505.3    89.987    7.3816e-27
    Residual    1488.8    89    16.728

Этот anova отображение показывает следующее.

SumSq - Сумма квадратов для регрессионной модели, Model, термин ошибки, Residualи общее, Total.
DF - Степени свободы для каждого термина. Степени свободы есть $n - 1$ на общую сумму, $p - 1$ для модели, и $n - p$ для термина ошибки, где $n$ количество наблюдений, и $p$ - количество коэффициентов в модели, включая точку пересечения. Для примера, MPG вектор данных имеет шесть NaN значения и один из векторов данных, Horsepower, имеет одно NaN значение для другого наблюдения, поэтому общие степени свободы составляют 93 - 1 = 92. В модели четыре коэффициента, поэтому модель DF равен 4 - 1 = 3, и DF для условия ошибки 93 - 4 = 89.
MeanSq - Средняя квадратичная невязка для каждого члена. Обратите внимание, что MeanSq = SumSq/DF. Для примера средняя квадратичная невязка для члена ошибки является 1488,8/89 = 16,728. Квадратный корень этого значения является root mean squared error на линейном регрессионном отображении, или 4.09.
F - F-статистическое значение, которое совпадает с F-statistic vs. constant model в линейном регрессионном отображении. В этом примере это 89,987, и в линейном регрессионном дисплее это F-статистическое значение округлится до 90.
pValue - p-значение для F-теста на модели. В этом примере это 7.3816e-27.

Если в регрессионной модели есть условия более высокого порядка, anova разделяет модель на SumSq в часть, объясненную терминами более высокого порядка и рест. Соответствующие F-статистические данные предназначены для проверки значимости линейных терминов и терминов более высокого порядка как отдельных групп.

Если данные включают повторения или несколько измерений с одинаковыми значениями предиктора, то anova разделяет ошибку SumSq в деталь для репликаций и восстановления. Соответствующая F-статистика предназначена для проверки несоответствия путем сравнения невязок модели с оценкой отклонения без моделей, вычисленной на репликатах.

Разложите таблицу ANOVA для членов модели.

anova(lm)

ans=4×5 table
              SumSq      DF     MeanSq         F          pValue  
             ________    __    ________    _________    __________

    x1         563.18     1      563.18       33.667    9.8742e-08
    x2         52.187     1      52.187       3.1197       0.08078
    x3       0.060046     1    0.060046    0.0035895       0.95236
    Error      1488.8    89      16.728

Этот anova отображение показывает следующее:

Первый столбец - Условия, включенные в модель.
SumSq - Сумма квадратной ошибки для каждого члена, кроме константы.
DF - Степени свободы. В этом примере DF равен 1 для каждого члена в модели и $n - p$ для термина ошибки, где $n$ количество наблюдений, и $p$ - количество коэффициентов в модели, включая точку пересечения. Для примера, DF для члена ошибки в этой модели 93 - 4 = 89. Если какая-либо из переменных в модели является категориальной переменной, DF для этой переменной является количество переменных индикатора, созданных для ее категорий (количество категорий - 1).
MeanSq - Средняя квадратичная невязка для каждого члена. Обратите внимание, что MeanSq = SumSq/DF. Для примера средняя квадратичная невязка для члена ошибки является 1488,8/89 = 16,728.
F - значения F для каждого коэффициента. F-значение является отношением среднего квадрата каждого члена и средней квадратичной невязки, то есть F = MeanSq(xi)/MeanSq(Error). Каждая F-статистическая величина имеет F- распределения со степенями свободы числителя DF значение для соответствующего термина и знаменательные степени свободы, $n - p$ . $n$ количество наблюдений, и $p$ - количество коэффициентов в модели. В этом примере каждая F-статистика имеет $F_{(1, 89)}$ распределение.
pValue - p-значение для каждого теста гипотезы на коэффициенте соответствующего члена в линейной модели. Для примера значение p для F-статистического коэффициента x2 составляет 0,08078 и не является значимым на уровне 5% значимости, учитывая другие членов в модели.

Интервалы

Доверия коэффициентов

Отображение интервалы доверия коэффициентов.

coefCI(lm)

ans = 4×2

   40.2702   55.6833
   -0.0088   -0.0043
   -0.0913    0.0054
   -0.3957    0.3726

Значения в каждой строке являются нижним и верхним пределами доверия, соответственно, для интервалов по умолчанию 95% доверия для коэффициентов. Например, первая строка показывает нижний и верхний пределы 40.2702 и 55.6833 для точки пересечения, $β_{0}$ . Аналогично, вторая строка показывает пределы для $β_{1}$ и так далее. Доверительные интервалы обеспечивают меру точности для оценок линейного коэффициента регрессии. A $100 (1 - α) %$ Доверие интервал задает область значений, с которой будет работать соответствующий коэффициент регрессии $100 (1 - α) %$ доверие.

Можно также изменить уровень доверия. Найдите 99% доверительные интервалы для коэффициентов.

coefCI(lm,0.01)

ans = 4×2

   37.7677   58.1858
   -0.0095   -0.0036
   -0.1069    0.0211
   -0.5205    0.4973

Тест гипотезы на коэффициентах

Протестируйте нулевую гипотезу о том, что все коэффициенты переменной предиктора равны нулю по сравнению с альтернативной гипотезой о том, что, по крайней мере, один из них отличается от нуля.

[p,F,d] = coefTest(lm)

p = 7.3816e-27

F = 89.9874

d = 3

Здесь, coefTest выполняет F-критерий для гипотезы о том, что все коэффициенты регрессии (за исключением точки пересечения) являются нулем против, по крайней мере, одного отличается от нуля, что по существу является гипотезой на модели. Возвращается $p$ , значение p, F, F-статистическая, и d, степени свободы числителя. F-статистическое и p-значение те же, что и таковые в линейной регрессии отображения и anova для модели. Степени свободы 4 - 1 = 3, потому что в модели есть четыре предиктора (включая точку пересечения).

Теперь выполните проверку гипотезы коэффициентов первой и второй переменных предиктора.

H = [0 1 0 0; 0 0 1 0];
[p,F,d] = coefTest(lm,H)

p = 5.1702e-23

F = 96.4873

d = 2

Степени свободы числителя являются количеством проверенных коэффициентов, что равняется 2 в этом примере. Результаты показывают, что, по крайней мере, один из $β_{2}$ и $β_{3}$ отличается от нуля.

См. также

anova | fitlm | LinearModel | stepwiselm

Документация

Интерпретируйте результаты линейной регрессии

Аппроксимация линейной регрессионной модели

ДИСПЕРСИОННЫЙ АНАЛИЗ

Доверия коэффициентов

Тест гипотезы на коэффициентах

См. также

Похожие примеры

Подробнее о

Statistics and Machine Learning Toolbox документация

Поддержка