В линейной регрессии F-статистическая-величина является тестовой статистической величиной для дисперсионного анализа (АНОВА) подход, чтобы протестировать значение модели или компонентов в модели.
F-статистическая-величина в линейном образцовом выходном отображении является тестовой статистической величиной для тестирования статистического значения модели. Значения F-статистической-величины в отображении anova
для оценки значения условий или компонентов в модели.
После получения подобранной модели, скажем, mdl
, с помощью fitlm
или stepwiselm
, вы можете:
Найдите F-statistic vs. constant model
в выходном отображении или при помощи
disp(mdl)
Отобразите АНОВУ для образцового использования
anova(mdl,'summary')
Получите значения F-статистической-величины для компонентов, за исключением постоянного использования термина
anova(mdl)
anova
класса LinearModel
.
Этот пример показывает, как оценить припадок модели и значения коэффициентов регрессии с помощью F-статистической-величины.
Загрузите выборочные данные.
load hospital tbl = table(hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ... 'VariableNames',{'Age','Weight','Smoker','BloodPressure'}); tbl.Smoker = categorical(tbl.Smoker);
Соответствуйте модели линейной регрессии.
mdl = fitlm(tbl,'BloodPressure ~ Age*Weight + Smoker + Weight^2')
mdl = Linear regression model: BloodPressure ~ 1 + Smoker + Age*Weight + Weight^2 Estimated Coefficients: Estimate SE tStat pValue __________ _________ ________ __________ (Intercept) 168.02 27.694 6.067 2.7149e-08 Age 0.079569 0.39861 0.19962 0.84221 Weight -0.69041 0.3435 -2.0099 0.047305 Smoker_true 9.8027 1.0256 9.5584 1.5969e-15 Age:Weight 0.00021796 0.0025258 0.086294 0.93142 Weight^2 0.0021877 0.0011037 1.9822 0.050375 Number of observations: 100, Error degrees of freedom: 94 Root Mean Squared Error: 4.73 R-squared: 0.528, Adjusted R-Squared: 0.503 F-statistic vs. constant model: 21, p-value = 4.81e-14
F-статистическая-величина линейной подгонки по сравнению с постоянной моделью равняется 21 с p-значением 4.81e-14. Модель является значительной на 5%-м уровне значения. Значение R-squared 0,528 средних значений модель объясняет приблизительно 53% изменчивости в ответе. Может быть другой предиктор (объяснительные) переменные, которые не включены в текущую модель.
Отобразите таблицу АНОВОЙ для подобранной модели.
anova(mdl,'summary')
ans=5×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 4461.2 99 45.062
Model 2354.5 5 470.9 21.012 4.8099e-14
. Linear 2263.3 3 754.42 33.663 7.2417e-15
. Nonlinear 91.248 2 45.624 2.0358 0.1363
Residual 2106.6 94 22.411
Это отображение разделяет изменчивость в модели в линейные и нелинейные условия. С тех пор существует два нелинейных условия (Weight^2
и взаимодействие между Weight
и Age
), нелинейные степени свободы в столбце DF
2. Существует три линейных члена в модели (одна переменная индикатора Smoker
, Weight
и Age
). Соответствующие F-статистические-данные в столбце F
для тестирования значения линейных и нелинейных условий с должности отдельных групп.
Когда существуют реплицированные наблюдения, остаточный термин также разделен на две части; сначала ошибка из-за отсутствия подгонки, и второй чистая ошибка, независимая от модели, полученной из реплицированных наблюдений. В этом случае F-статистическая-величина для тестирования отсутствия подгонки, то есть, соответствует ли подгонка или нет. Но в этом примере нет никаких реплицированных наблюдений.
Отобразите таблицу АНОВОЙ для образцовых условий.
anova(mdl)
ans=6×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
Age 62.991 1 62.991 2.8107 0.096959
Weight 0.064104 1 0.064104 0.0028604 0.95746
Smoker 2047.5 1 2047.5 91.363 1.5969e-15
Age:Weight 0.16689 1 0.16689 0.0074466 0.93142
Weight^2 88.057 1 88.057 3.9292 0.050375
Error 2106.6 94 22.411
Это отображение разлагает таблицу АНОВОЙ на образцовые условия. Соответствующие F-статистические-данные в столбце F
оценивают статистическое значение каждого термина. Например, F-тест для Smoker
тестирует, отличается ли коэффициент переменной индикатора для Smoker
от нуля. Таким образом, F-тест определяет, имеет ли быть курильщиком значительный эффект на BloodPressure
. Степени свободы для каждого образцового термина являются степенями свободы числителя для соответствующего F-теста. Все условия имеют одну степень свободы. В случае категориальной переменной степени свободы являются количеством переменных индикатора. Smoker
имеет только одну переменную индикатора, таким образом, это также имеет одну степень свободы.
В линейной регрессии t - статистическая величина полезна для того, чтобы сделать выводы о коэффициентах регрессии. Тест гипотезы на коэффициенте, i тестирует нулевую гипотезу, которую это равно нулю – значение соответствующего термина, не является значительным – по сравнению с альтернативной гипотезой, что коэффициент отличается от нуля.
Для гипотезы тестируют на коэффициенте i, с
H0: β i = 0
H1: β i ≠ 0,
t - статистическая величина:
где SE (b i) является стандартной погрешностью предполагаемого коэффициента b i.
После получения подобранной модели, скажем, mdl
, с помощью fitlm
или stepwiselm
, вы можете:
Найдите содействующие оценки, стандартные погрешности оценок (SE
) и t - статистические значения тестов гипотезы для соответствующих коэффициентов (tStat
) в выходном отображении.
Призовите к использованию отображения
display(mdl)
Этот пример показывает, как протестировать на значение коэффициентов регрессии с помощью t-статистической-величины.
Загрузите выборочные данные и соответствуйте модели линейной регрессии.
load hald
mdl = fitlm(ingredients,heat)
mdl = Linear regression model: y ~ 1 + x1 + x2 + x3 + x4 Estimated Coefficients: Estimate SE tStat pValue ________ _______ ________ ________ (Intercept) 62.405 70.071 0.8906 0.39913 x1 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.72379 0.70486 0.5009 x3 0.10191 0.75471 0.13503 0.89592 x4 -0.14406 0.70905 -0.20317 0.84407 Number of observations: 13, Error degrees of freedom: 8 Root Mean Squared Error: 2.45 R-squared: 0.982, Adjusted R-Squared: 0.974 F-statistic vs. constant model: 111, p-value = 4.76e-07
Вы видите это для каждого коэффициента, tStat = Estimate/SE
. - значения для тестов гипотез находятся в столбце pValue
. Каждый - статистические тесты для значения каждого термина, учитывая другие члены в модели. Согласно этим результатам, ни один из коэффициентов не кажется значительным на 5%-м уровне значения, несмотря на то, что значение R-squared для модели действительно высоко в 0,97. Это часто указывает на возможную мультиколлинеарность среди переменных прогноза.
Используйте пошаговую регрессию, чтобы решить который переменные включать в модель.
load hald
mdl = stepwiselm(ingredients,heat)
1. Adding x4, FStat = 22.7985, pValue = 0.000576232 2. Adding x1, FStat = 108.2239, pValue = 1.105281e-06
mdl = Linear regression model: y ~ 1 + x1 + x4 Estimated Coefficients: Estimate SE tStat pValue ________ ________ _______ __________ (Intercept) 103.1 2.124 48.54 3.3243e-13 x1 1.44 0.13842 10.403 1.1053e-06 x4 -0.61395 0.048645 -12.621 1.8149e-07 Number of observations: 13, Error degrees of freedom: 10 Root Mean Squared Error: 2.73 R-squared: 0.972, Adjusted R-Squared: 0.967 F-statistic vs. constant model: 177, p-value = 1.58e-08
В этом примере stepwiselm
запускается с постоянной модели (значение по умолчанию) и использует прямой выбор, чтобы инкрементно добавить x4
и x1
. Каждая переменная прогноза в итоговой модели является значительной, учитывая другую, находится в модели. Остановки алгоритма, не добавляя ни одну из других переменных прогноза значительно улучшаются в модели. Для получения дополнительной информации на пошаговой регрессии, смотрите stepwiselm
.
LinearModel
| anova
| coefCI
| coefTest
| fitlm
| stepwiselm