F-статистическая-величина и t-статистическая-величина

F-статистическая-величина

Цель

В линейной регрессии F-статистическая-величина является тестовой статистической величиной для дисперсионного анализа (Дисперсионный Анализ) подход, чтобы протестировать значение модели или компонентов в модели.

Определение

F-статистическая-величина в линейном выходном отображении модели является тестовой статистической величиной для тестирования статистического значения модели. Значения F-статистической-величины в anova отображение для оценки значения терминов или компонентов в модели.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

Найдите F-statistic vs. constant model в выходе отображаются или при помощи
```
disp(mdl)
```
Отобразите Дисперсионный Анализ для использования модели
```
anova(mdl,'summary')
```
Получите значения F-статистической-величины для компонентов, за исключением постоянного использования термина
```
anova(mdl)
```
Для получения дополнительной информации смотрите anova метод LinearModel класс.

Оцените припадок модели Используя F-статистическую-величину

Скрипт Open Live Script

В этом примере показано, как оценить припадок модели и значения коэффициентов регрессии с помощью F-статистической-величины.

Загрузите выборочные данные.

load hospital
tbl = table(hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ...
      'VariableNames',{'Age','Weight','Smoker','BloodPressure'});
tbl.Smoker = categorical(tbl.Smoker);

Подбирайте модель линейной регрессии.

mdl = fitlm(tbl,'BloodPressure ~ Age*Weight + Smoker + Weight^2')

mdl = 
Linear regression model:
    BloodPressure ~ 1 + Smoker + Age*Weight + Weight^2

Estimated Coefficients:
                    Estimate        SE         tStat        pValue  
                   __________    _________    ________    __________

    (Intercept)        168.02       27.694       6.067    2.7149e-08
    Age              0.079569      0.39861     0.19962       0.84221
    Weight           -0.69041       0.3435     -2.0099      0.047305
    Smoker_true        9.8027       1.0256      9.5584    1.5969e-15
    Age:Weight     0.00021796    0.0025258    0.086294       0.93142
    Weight^2        0.0021877    0.0011037      1.9822      0.050375


Number of observations: 100, Error degrees of freedom: 94
Root Mean Squared Error: 4.73
R-squared: 0.528,  Adjusted R-Squared: 0.503
F-statistic vs. constant model: 21, p-value = 4.81e-14

F-статистическая-величина линейной подгонки по сравнению с постоянной моделью равняется 21 с p-значением 4.81e-14. Модель является значительной на 5%-м уровне значения. Значение R-squared 0,528 средних значений модель объясняет приблизительно 53% изменчивости в ответе. Может быть другой предиктор (объяснительные) переменные, которые не включены в текущую модель.

Отобразите таблицу ANOVA для подобранной модели.

anova(mdl,'summary')

ans=5×5 table
                   SumSq     DF    MeanSq      F         pValue  
                   ______    __    ______    ______    __________

    Total          4461.2    99    45.062                        
    Model          2354.5     5     470.9    21.012    4.8099e-14
    . Linear       2263.3     3    754.42    33.663    7.2417e-15
    . Nonlinear    91.248     2    45.624    2.0358        0.1363
    Residual       2106.6    94    22.411

Это отображение разделяет изменчивость в модели в линейные и нелинейные термины. С тех пор существует два нелинейных термина (Weight^2 и взаимодействие между Weight и Age), нелинейные степени свободы в DF столбец равняется 2. Существует три линейных члена в модели (один Smoker переменная индикатора, Weight, и Age). Соответствующая F-статистика в F столбец для тестирования значения линейных и нелинейных терминов как отдельные группы.

Когда существуют реплицированные наблюдения, остаточный термин также разделен на две части; сначала ошибка из-за отсутствия подгонки, и второй чистая ошибка, независимая от модели, полученной из реплицированных наблюдений. В этом случае F-статистическая-величина для тестирования отсутствия подгонки, то есть, соответствует ли подгонка или нет. Но в этом примере нет никаких реплицированных наблюдений.

Отобразите таблицу ANOVA для терминов модели.

anova(mdl)

ans=6×5 table
                   SumSq      DF     MeanSq         F          pValue  
                  ________    __    ________    _________    __________

    Age             62.991     1      62.991       2.8107      0.096959
    Weight        0.064104     1    0.064104    0.0028604       0.95746
    Smoker          2047.5     1      2047.5       91.363    1.5969e-15
    Age:Weight     0.16689     1     0.16689    0.0074466       0.93142
    Weight^2        88.057     1      88.057       3.9292      0.050375
    Error           2106.6    94      22.411

Это отображение разлагает таблицу ANOVA на термины модели. Соответствующая F-статистика в F столбец оценивает статистическое значение каждого термина. Например, F-тест для Smoker тесты, ли коэффициент переменной индикатора для Smoker отличается от нуля. Таким образом, F-тест определяет, оказывает ли быть курильщиком значительное влияние на BloodPressure. Степени свободы для каждого термина модели являются степенями свободы числителя для соответствующего F-теста. Все термины имеют одну степень свободы. В случае категориальной переменной степени свободы являются количеством переменных индикатора. Smoker имеет только одну переменную индикатора, таким образом, она также имеет одну степень свободы.

t-статистическая-величина

Цель

В линейной регрессии t - статистическая величина полезна для того, чтобы сделать выводы о коэффициентах регрессии. Тест гипотезы на коэффициенте, i тестирует нулевую гипотезу, которую это равно нулю – значение соответствующего термина, не является значительным – по сравнению с альтернативной гипотезой, что коэффициент отличается от нуля.

Определение

Для гипотезы тестируют на коэффициенте i, с

_H0: β _i = 0

_H1: β _i ≠ 0,

t - статистическая величина:

$t = \frac{b_{i}}{S E (b_{i})},$

где SE (b _i) является стандартной погрешностью предполагаемого коэффициента b _i.

Как к

После получения подобранной модели, скажем, mdl, использование fitlm или stepwiselm, вы можете:

Найдите содействующие оценки, стандартные погрешности оценок (SE), и t - статистические значения гипотезы тестируют на соответствующие коэффициенты (tStat) в выходном отображении.
Призовите к использованию отображения
```
display(mdl)
```

Оцените Значение Коэффициентов регрессии Используя t-статистическую-величину

Скрипт Open Live Script

В этом примере показано, как протестировать на значение коэффициентов регрессии с помощью t-статистической-величины.

Загрузите выборочные данные и подбирайте модель линейной регрессии.

load hald
mdl = fitlm(ingredients,heat)

mdl = 
Linear regression model:
    y ~ 1 + x1 + x2 + x3 + x4

Estimated Coefficients:
                   Estimate      SE        tStat       pValue 
                   ________    _______    ________    ________

    (Intercept)      62.405     70.071      0.8906     0.39913
    x1               1.5511    0.74477      2.0827    0.070822
    x2              0.51017    0.72379     0.70486      0.5009
    x3              0.10191    0.75471     0.13503     0.89592
    x4             -0.14406    0.70905    -0.20317     0.84407


Number of observations: 13, Error degrees of freedom: 8
Root Mean Squared Error: 2.45
R-squared: 0.982,  Adjusted R-Squared: 0.974
F-statistic vs. constant model: 111, p-value = 4.76e-07

Вы видите это для каждого коэффициента, tStat = Estimate/SE. $p$ - значения для тестов гипотез находятся в pValue столбец. Каждый $t$ - статистические тесты для значения каждого термина, учитывая другие члены в модели. Согласно этим результатам, ни один из коэффициентов не кажется значительным на 5%-м уровне значения, несмотря на то, что значение R-squared для модели действительно высоко в 0,97. Это часто указывает на возможную мультиколлинеарность среди переменных предикторов.

Используйте ступенчатую регрессию, чтобы решить который переменные включать в модель.

load hald
mdl = stepwiselm(ingredients,heat)

1. Adding x4, FStat = 22.7985, pValue = 0.000576232
2. Adding x1, FStat = 108.2239, pValue = 1.105281e-06

mdl = 
Linear regression model:
    y ~ 1 + x1 + x4

Estimated Coefficients:
                   Estimate       SE        tStat       pValue  
                   ________    ________    _______    __________

    (Intercept)       103.1       2.124      48.54    3.3243e-13
    x1                 1.44     0.13842     10.403    1.1053e-06
    x4             -0.61395    0.048645    -12.621    1.8149e-07


Number of observations: 13, Error degrees of freedom: 10
Root Mean Squared Error: 2.73
R-squared: 0.972,  Adjusted R-Squared: 0.967
F-statistic vs. constant model: 177, p-value = 1.58e-08

В этом примере, stepwiselm запускается с постоянной модели (значение по умолчанию) и использует прямой выбор, чтобы инкрементно добавить x4 и x1. Каждый переменный предиктор в итоговой модели является значительным, учитывая другую, находится в модели. Остановки алгоритма, не добавляя ни один из других переменных предикторов значительно улучшаются в модели. Для получения дополнительной информации на ступенчатой регрессии, смотрите stepwiselm.

Документация