В линейной регрессии F-статистическая-величина является тестовой статистической величиной для дисперсионного анализа (Дисперсионный Анализ) подход, чтобы протестировать значение модели или компонентов в модели.
F-статистическая-величина в линейном выходном отображении модели является тестовой статистической величиной для тестирования статистического значения модели. Значения F-статистической-величины в anova
отображение для оценки значения условий или компонентов в модели.
После получения подобранной модели, скажем, mdl
, использование fitlm
или stepwiselm
, вы можете:
Найдите F-statistic vs. constant model
в выходе отображаются или при помощи
disp(mdl)
Отобразите Дисперсионный Анализ для использования модели
anova(mdl,'summary')
Получите значения F-статистической-величины для компонентов, за исключением постоянного использования термина
anova(mdl)
anova
метод LinearModel
класс.
В этом примере показано, как оценить припадок модели и значения коэффициентов регрессии с помощью F-статистической-величины.
Загрузите выборочные данные.
load hospital tbl = table(hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ... 'VariableNames',{'Age','Weight','Smoker','BloodPressure'}); tbl.Smoker = categorical(tbl.Smoker);
Подбирайте модель линейной регрессии.
mdl = fitlm(tbl,'BloodPressure ~ Age*Weight + Smoker + Weight^2')
mdl = Linear regression model: BloodPressure ~ 1 + Smoker + Age*Weight + Weight^2 Estimated Coefficients: Estimate SE tStat pValue __________ _________ ________ __________ (Intercept) 168.02 27.694 6.067 2.7149e-08 Age 0.079569 0.39861 0.19962 0.84221 Weight -0.69041 0.3435 -2.0099 0.047305 Smoker_true 9.8027 1.0256 9.5584 1.5969e-15 Age:Weight 0.00021796 0.0025258 0.086294 0.93142 Weight^2 0.0021877 0.0011037 1.9822 0.050375 Number of observations: 100, Error degrees of freedom: 94 Root Mean Squared Error: 4.73 R-squared: 0.528, Adjusted R-Squared: 0.503 F-statistic vs. constant model: 21, p-value = 4.81e-14
F-статистическая-величина линейной подгонки по сравнению с постоянной моделью равняется 21 с p-значением 4.81e-14. Модель является значительной на 5%-м уровне значения. Значение R-squared 0,528 средних значений модель объясняет приблизительно 53% изменчивости в ответе. Может быть другой предиктор (объяснительные) переменные, которые не включены в текущую модель.
Отобразите таблицу ANOVA для подобранной модели.
anova(mdl,'summary')
ans=5×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 4461.2 99 45.062
Model 2354.5 5 470.9 21.012 4.8099e-14
. Linear 2263.3 3 754.42 33.663 7.2417e-15
. Nonlinear 91.248 2 45.624 2.0358 0.1363
Residual 2106.6 94 22.411
Это отображение разделяет изменчивость в модели в линейные и нелинейные условия. С тех пор существует два нелинейных условия (Weight^2
и взаимодействие между Weight
и Age
), нелинейные степени свободы в DF
столбец равняется 2. Существует три линейных члена в модели (один Smoker
переменная индикатора, Weight
, и Age
). Соответствующая F-статистика в F
столбец для тестирования значения линейных и нелинейных условий с должности отдельных групп.
Когда существуют реплицированные наблюдения, остаточный термин также разделен на две части; сначала ошибка из-за отсутствия подгонки, и второй чистая ошибка, независимая от модели, полученной из реплицированных наблюдений. В этом случае F-статистическая-величина для тестирования отсутствия подгонки, то есть, соответствует ли подгонка или нет. Но в этом примере нет никаких реплицированных наблюдений.
Отобразите таблицу ANOVA для условий модели.
anova(mdl)
ans=6×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
Age 62.991 1 62.991 2.8107 0.096959
Weight 0.064104 1 0.064104 0.0028604 0.95746
Smoker 2047.5 1 2047.5 91.363 1.5969e-15
Age:Weight 0.16689 1 0.16689 0.0074466 0.93142
Weight^2 88.057 1 88.057 3.9292 0.050375
Error 2106.6 94 22.411
Это отображение разлагает таблицу ANOVA на условия модели. Соответствующая F-статистика в F
столбец оценивает статистическое значение каждого термина. Например, F-тест для Smoker
тесты, ли коэффициент переменной индикатора для Smoker
отличается от нуля. Таким образом, F-тест определяет, оказывает ли быть курильщиком значительное влияние на BloodPressure
. Степени свободы для каждого термина модели являются степенями свободы числителя для соответствующего F-теста. Все условия имеют одну степень свободы. В случае категориальной переменной степени свободы являются количеством переменных индикатора. Smoker
имеет только одну переменную индикатора, таким образом, она также имеет одну степень свободы.
В линейной регрессии t - статистическая величина полезна для того, чтобы сделать выводы о коэффициентах регрессии. Тест гипотезы на коэффициенте, i тестирует нулевую гипотезу, которую это равно нулю – значение соответствующего термина, не является значительным – по сравнению с альтернативной гипотезой, что коэффициент отличается от нуля.
Для гипотезы тестируют на коэффициенте i, с
H0: β i = 0
H1: β i ≠ 0,
t - статистическая величина:
где SE (b i) является стандартной погрешностью предполагаемого коэффициента b i.
После получения подобранной модели, скажем, mdl
, использование fitlm
или stepwiselm
, вы можете:
Найдите содействующие оценки, стандартные погрешности оценок (SE
), и t - статистические значения гипотезы тестируют на соответствующие коэффициенты (tStat
) в выходном отображении.
Призовите к использованию отображения
display(mdl)
В этом примере показано, как протестировать на значение коэффициентов регрессии с помощью t-статистической-величины.
Загрузите выборочные данные и подбирайте модель линейной регрессии.
load hald
mdl = fitlm(ingredients,heat)
mdl = Linear regression model: y ~ 1 + x1 + x2 + x3 + x4 Estimated Coefficients: Estimate SE tStat pValue ________ _______ ________ ________ (Intercept) 62.405 70.071 0.8906 0.39913 x1 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.72379 0.70486 0.5009 x3 0.10191 0.75471 0.13503 0.89592 x4 -0.14406 0.70905 -0.20317 0.84407 Number of observations: 13, Error degrees of freedom: 8 Root Mean Squared Error: 2.45 R-squared: 0.982, Adjusted R-Squared: 0.974 F-statistic vs. constant model: 111, p-value = 4.76e-07
Вы видите это для каждого коэффициента, tStat = Estimate/SE
. - значения для тестов гипотез находятся в pValue
столбец. Каждый - статистические тесты для значения каждого термина, учитывая другие члены в модели. Согласно этим результатам, ни один из коэффициентов не кажется значительным на 5%-м уровне значения, несмотря на то, что значение R-squared для модели действительно высоко в 0,97. Это часто указывает на возможную мультиколлинеарность среди переменных предикторов.
Используйте ступенчатую регрессию, чтобы решить который переменные включать в модель.
load hald
mdl = stepwiselm(ingredients,heat)
1. Adding x4, FStat = 22.7985, pValue = 0.000576232 2. Adding x1, FStat = 108.2239, pValue = 1.105281e-06
mdl = Linear regression model: y ~ 1 + x1 + x4 Estimated Coefficients: Estimate SE tStat pValue ________ ________ _______ __________ (Intercept) 103.1 2.124 48.54 3.3243e-13 x1 1.44 0.13842 10.403 1.1053e-06 x4 -0.61395 0.048645 -12.621 1.8149e-07 Number of observations: 13, Error degrees of freedom: 10 Root Mean Squared Error: 2.73 R-squared: 0.972, Adjusted R-Squared: 0.967 F-statistic vs. constant model: 177, p-value = 1.58e-08
В этом примере, stepwiselm
запускается с постоянной модели (значение по умолчанию) и использует прямой выбор, чтобы инкрементно добавить x4
и x1
. Каждый переменный предиктор в итоговой модели является значительным, учитывая другую, находится в модели. Остановки алгоритма, не добавляя ни один из других переменных предикторов значительно улучшаются в модели. Для получения дополнительной информации на ступенчатой регрессии, смотрите stepwiselm
.
LinearModel
| anova
| coefCI
| coefTest
| fitlm
| stepwiselm