Обозначение Уилкинсона обеспечивает способ описать регрессию и модели повторных измерений, не задавая содействующие значения. Это специализированное обозначение идентифицирует переменную отклика и который переменные предикторы включать или исключить из модели. Можно также включать термины высшего порядка и в квадрате, периоды взаимодействия и сгруппированные переменные в формуле модели.
Определение модели с помощью обозначения Уилкинсона обеспечивает несколько преимуществ:
Можно включать или исключить отдельные предикторы и периоды взаимодействия из модели. Например, использование 'Interactions'
пара "имя-значение", доступная в каждой модели, соответствующей функциям, включает периоды взаимодействия для всех пар переменных. Используя обозначение Уилкинсона вместо этого позволяет вам включать только периоды взаимодействия интереса.
Можно изменить формулу модели, не изменяя матрицу проекта, если входные данные используют table
тип данных. Например, если вы подбираете первоначальную модель с помощью всех доступных переменных предикторов, но решаете удалить переменную, которая не является статистически значительной, затем можно переписать формулу модели, чтобы включать только переменные интереса. Вы не должны вносить изменения во входные данные самостоятельно.
Statistics and Machine Learning Toolbox™ предлагает несколько моделей, соответствующих функциям, которые используют обозначение Уилкинсона, включая:
Линейные модели (использование fitlm
и stepwiselm
)
Обобщенные линейные модели (использование fitglm
)
Линейные модели смешанных эффектов (использование fitlme
и fitlmematrix
)
Обобщенные линейные модели смешанных эффектов (использование fitglme
)
Модели повторных измерений (использование fitrm
)
Cox пропорциональная модель опасностей (использование fitcox
)
Формула для спецификации модели является вектором символов или строковым скаляром формы y ~ terms
, где y
имя переменной отклика и terms
задает модель с помощью имен переменного предиктора и следующих операторов.
Условия предиктора в модели | Обозначение Уилкинсона |
---|---|
точка пересечения | 1
|
никакая точка пересечения | –1
|
x1 | x1 |
x1, x2 | x1 + x2 |
x 1, x 2, x 1x2 | x1*x2 или x1 + x2 + x1:x2 |
x1, x2 | x1:x2 |
x 1, x 12 | x1^2 |
x1 2 | x1^2 – x1 |
Обозначение Уилкинсона включает член в модели точки пересечения по умолчанию, даже если вы не добавляете 1 к формуле модели. Чтобы исключить точку пересечения из модели, используйте-1 в формуле.
*
оператор (для взаимодействий) и ^
оператор (для степени и экспонент) автоматически включает все термины более низкоуровневые. Например, если вы задаете x^3
, модель будет автоматически включать x3X2, и x. Если вы хотите исключить определенные переменные из модели, используйте –
оператор, чтобы удалить нежелательные термины.
Для случайных эффектов и моделей смешанных эффектов, спецификация формулы включает имена переменных предикторов и сгруппированных переменных. Например, если переменный предиктор, x 1 является случайным эффектом, сгруппированным переменной g, то представляет это в обозначении Уилкинсона можно следующим образом:
(x1 | g)
Для моделей повторных измерений спецификация формулы включает все повторные измерения как ответы и факторы как переменные предикторы. Задайте переменные отклика для моделей повторных измерений как описано в следующей таблице.
Условия ответа в модели | Обозначение Уилкинсона |
---|---|
y 1 | y1 |
y 1, y 2, y 3 | y1,y2,y3 |
y 1, y 2, y 3, y 4, y 5 | y1–y5 |
Например, если у вас есть три повторных измерения как ответы и факторы x 1, x 2, и x 3 как переменные предикторы, затем можно задать модель повторных измерений использование обозначения Уилкинсона можно следующим образом:
y1,y2,y3 ~ x1 + x2 + x3
или
y1-y3 ~ x1 + x2 + x3
Если входные данные (переменные отклика и переменные предикторы) хранятся в таблице или массиве набора данных, можно задать формулу с помощью имен переменных. Например, загрузите carsmall
выборочные данные. Составьте таблицу, содержащую Weight
, Acceleration
, и MPG
. Назовите каждую переменную с помощью 'VariableNames'
аргумент пары "имя-значение" подходящей функции fitlm
. Затем подбирайте следующую модель к данным:
load carsmall tbl = table(Weight,Acceleration,MPG, ... 'VariableNames',{'Weight','Acceleration','MPG'}); mdl = fitlm(tbl,'MPG ~ Weight + Acceleration')
mdl = Linear regression model: MPG ~ 1 + Weight + Acceleration Estimated Coefficients: Estimate SE tStat pValue __________ __________ _______ __________ (Intercept) 45.155 3.4659 13.028 1.6266e-22 Weight -0.0082475 0.00059836 -13.783 5.3165e-24 Acceleration 0.19694 0.14743 1.3359 0.18493 Number of observations: 94, Error degrees of freedom: 91 Root Mean Squared Error: 4.12 R-squared: 0.743, Adjusted R-Squared: 0.738 F-statistic vs. constant model: 132, p-value = 1.38e-27
Отображение объекта модели использует имена переменных, обеспеченные во входной таблице.
Если входные данные хранятся как матрица, можно задать формулу с помощью имен переменных по умолчанию, таких как y
x1
, и x2
. Например, загрузите carsmall
выборочные данные. Создайте матрицу, содержащую переменные предикторы Weight
и Acceleration
. Затем подбирайте следующую модель к данным:
load carsmall X = [Weight,Acceleration]; y = MPG; mdl = fitlm(X,y,'y ~ x1 + x2')
mdl = Linear regression model: y ~ 1 + x1 + x2 Estimated Coefficients: Estimate SE tStat pValue __________ __________ _______ __________ (Intercept) 45.155 3.4659 13.028 1.6266e-22 x1 -0.0082475 0.00059836 -13.783 5.3165e-24 x2 0.19694 0.14743 1.3359 0.18493 Number of observations: 94, Error degrees of freedom: 91 Root Mean Squared Error: 4.12 R-squared: 0.743, Adjusted R-Squared: 0.738 F-statistic vs. constant model: 132, p-value = 1.38e-27
Термин x1
в спецификации модели формула соответствует первому столбцу матрицы переменного предиктора X
. Термин x2
соответствует второму столбцу входной матрицы. Термин y
соответствует переменной отклика.
Использование fitlm
и stepwiselm
подбирать линейные модели.
Для модели линейной регрессии с точкой пересечения и двумя предикторами фиксированных эффектов, такой как
задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + x2'
Для модели линейной регрессии без точки пересечения и двух предикторов фиксированных эффектов, такой как
задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ -1 + x1 + x2'
Для модели линейной регрессии с точкой пересечения, двумя предикторами фиксированных эффектов, и период взаимодействия, такой как
задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2'
или
'y ~ x1 + x2 + x1:x2'
Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между всеми тремя предикторами плюс все термины более низкоуровневые, такой как
задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2*x3'
Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между двумя из предикторов, такой как
задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2 + x3'
или
'y ~ x1 + x2 + x3 + x1:x2'
Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и попарными эффектами взаимодействия между всеми тремя предикторами, но, исключая эффект взаимодействия между всеми тремя предикторами одновременно, такой как
задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2*x3 - x1:x2:x3'
Использование fitlme
и fitlmematrix
подбирать линейные модели смешанных эффектов.
Для линейной модели смешанных эффектов, которая содержит случайную точку пересечения, но никакие термины предиктора, такой как
где
и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ (1 | g)'
Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и зафиксированный наклон для непрерывного переменного предиктора, такой как
где
и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + (1 | g)'
Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения плюс случайная точка пересечения и случайный наклон, которые имеют возможную корреляцию между ними, такой как
где
и D является симметричной и положительной полуопределенной ковариационной матрицей 2 на 2, параметрированной вектором компонента отклонения θ, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + (x1 | g)'
Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitlme
подбирая модель. Например, можно задать предположение, что случайная точка пересечения и случайный наклон независимы друг от друга использующего 'CovariancePattern'
аргумент пары "имя-значение" в fitlme
.
Использование fitglm
и stepwiseglm
подбирать обобщенные линейные модели.
В обобщенной линейной модели переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:
Распределение переменной отклика
Функция ссылки
Линейный предиктор
Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящей функции fitglm
или stepwiseglm
.
Линейный фрагмент предиктора уравнения, которое появляется на правой стороне ~
символ в формуле спецификации модели, обозначение Уилкинсона использования таким же образом что касается линейных примеров модели.
Обобщенные линейные модели модели функция ссылки, а не фактический ответ, как y. Это отражается в выходном отображении для объекта модели.
Для обобщенной линейной модели регрессии с точкой пересечения и двумя предикторами, такой как
задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + x2'
Использование fitglme
подбирать обобщенные линейные модели смешанных эффектов.
В обобщенной линейной модели смешанных эффектов переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:
Распределение переменной отклика
Функция ссылки
Линейный предиктор
Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящей функции fitglme
.
Линейный фрагмент предиктора уравнения, которое появляется на правой стороне ~
символ в формуле спецификации модели, обозначение Уилкинсона использования таким же образом что касается линейных примеров модели смешанных эффектов.
Обобщенные линейные модели модели ссылка функционируют как y, не сам ответ. Это отражается в выходном отображении для объекта модели.
Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitglme
подбирая модель. Например, можно задать предположение, что случайная точка пересечения и случайный наклон независимы друг от друга использующего 'CovariancePattern'
аргумент пары "имя-значение" в fitglme
.
Для обобщенной линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и зафиксированный наклон для непрерывного переменного предиктора, где ответ может быть смоделирован с помощью распределения Пуассона, такой как
где
и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + (1 | g)'
Использование fitrm
подбирать модели повторных измерений.
Для модели повторных измерений с пятью измерениями ответа и одним переменным предиктором, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y1-y5 ~ x1'
Для модели повторных измерений с пятью измерениями ответа и тремя переменными предикторами, плюс взаимодействие между двумя из переменных предикторов, задают формулу модели с помощью обозначения Уилкинсона можно следующим образом:
'y1-y5 ~ x1*x2 + x3'
[1] Уилкинсон, G. N. и К. Э. Роджерс. "Символьное описание факториальных моделей для дисперсионного анализа". Общество Статистики Ж. Руаяля 22, стр 392–399, 1973.