Обозначение Уилкинсона обеспечивает способ описать регрессию и повторенные модели мер, не задавая содействующие значения. Это специализированное обозначение идентифицирует переменную отклика и который переменные прогноза включать или исключить из модели. Можно также включать условия высшего порядка и в квадрате, периоды взаимодействия и группирующие переменные в образцовой формуле.
Определение модели с помощью обозначения Уилкинсона обеспечивает несколько преимуществ:
Можно включать или исключить отдельные предикторы и периоды взаимодействия из модели. Например, использование пары "имя-значение" 'Interactions'
, доступной в каждой модели, соответствующей функциям, включает периоды взаимодействия для всех пар переменных. Используя обозначение Уилкинсона вместо этого позволяет вам включать только периоды взаимодействия интереса.
Можно изменить образцовую формулу, не изменяя матрицу проекта, если входные данные используют тип данных table
. Например, если вы соответствуете первоначальной модели с помощью всех доступных переменных прогноза, но решаете удалить переменную, которая не является статистически значительной, затем можно переписать образцовую формулу, чтобы включать только переменные интереса. Вы не должны вносить изменения во входные данные самостоятельно.
Statistics and Machine Learning Toolbox™ предлагает несколько моделей, соответствующих функциям, которые используют обозначение Уилкинсона, включая:
Линейные модели (использующий fitlm
и stepwiselm
)
Обобщенные линейные модели (использующий fitglm
)
Линейные модели смешанных эффектов (использующий fitlme
и fitlmematrix
)
Обобщенные линейные модели смешанных эффектов (использующий fitglme
)
Повторные модели мер (использующий fitrm
)
Формула для образцовой спецификации является вектором символов или скаляром строки формы y ~ terms
, где y
является именем переменной отклика, и terms
задает модель с помощью имен переменной прогноза и следующих операторов.
Условия предиктора в модели | Обозначение Уилкинсона |
---|---|
прерывание | 1 |
никакое прерывание | –1 |
x1 | x1 |
x1, x2 | x1 + x2 |
x 1, x 2, x 1x2 | x1*x2 или x1 + x2 + x1:x2 |
x1, x2 | x1:x2 |
x 1, x 12 | x1^2 |
x 12 | x1^2 – x1 |
Обозначение Уилкинсона включает член в модели прерывания по умолчанию, даже если вы не добавляете 1 к образцовой формуле. Чтобы исключить прерывание из модели, используйте-1 в формуле.
Оператор *
(для взаимодействий) и оператор ^
(для степени и экспонент) автоматически включают все условия более низкоуровневые. Например, если вы зададите x^3
, модель будет автоматически включать x 3, x 2, и x. Если вы хотите исключить определенные переменные из модели, используйте оператор –
, чтобы удалить нежелательные условия.
Для случайных эффектов и моделей смешанных эффектов, спецификация формулы включает имена переменных прогноза и группирующих переменных. Например, если переменная прогноза, x 1 является случайным эффектом, сгруппированным переменной g, то представляет это в обозначении Уилкинсона можно следующим образом:
(x1 | g)
Для повторных моделей мер спецификация формулы включает все повторные меры как ответы и факторы как переменные прогноза. Задайте переменные отклика для повторных моделей мер, как описано в следующей таблице.
Условия ответа в модели | Обозначение Уилкинсона |
---|---|
y 1 | y1 |
y 1, y 2, y 3 | y1,y2,y3 |
y 1, y 2, y 3, y 4, y 5 | y1–y5 |
Например, если у вас есть три повторных меры как ответы и факторы x 1, x 2, и x 3 как переменные прогноза, затем можно задать повторную модель мер использование обозначения Уилкинсона можно следующим образом:
y1,y2,y3 ~ x1 + x2 + x3
или
y1-y3 ~ x1 + x2 + x3
Если входные данные (переменные отклика и переменные прогноза) хранятся в таблице или массиве набора данных, можно задать формулу с помощью имен переменных. Например, загрузите выборочные данные carsmall
. Составьте таблицу, содержащую Weight
, Acceleration
и MPG
. Назовите каждую переменную с помощью аргумента пары "имя-значение" 'VariableNames'
подходящего функционального fitlm
. Затем соответствуйте следующей модели к данным:
load carsmall tbl = table(Weight,Acceleration,MPG, ... 'VariableNames',{'Weight','Acceleration','MPG'}); mdl = fitlm(tbl,'MPG ~ Weight + Acceleration')
mdl = Linear regression model: MPG ~ 1 + Weight + Acceleration Estimated Coefficients: Estimate SE tStat pValue __________ __________ _______ __________ (Intercept) 45.155 3.4659 13.028 1.6266e-22 Weight -0.0082475 0.00059836 -13.783 5.3165e-24 Acceleration 0.19694 0.14743 1.3359 0.18493 Number of observations: 94, Error degrees of freedom: 91 Root Mean Squared Error: 4.12 R-squared: 0.743, Adjusted R-Squared: 0.738 F-statistic vs. constant model: 132, p-value = 1.38e-27
Отображение объекта модели использует имена переменных, обеспеченные во входной таблице.
Если входные данные хранятся как матрица, можно задать формулу с помощью имен переменных по умолчанию, таких как y
, x1
и x2
. Например, загрузите выборочные данные carsmall
. Создайте матрицу, содержащую переменные прогноза Weight
и Acceleration
. Затем соответствуйте следующей модели к данным:
load carsmall X = [Weight,Acceleration]; y = MPG; mdl = fitlm(X,y,'y ~ x1 + x2')
mdl = Linear regression model: y ~ 1 + x1 + x2 Estimated Coefficients: Estimate SE tStat pValue __________ __________ _______ __________ (Intercept) 45.155 3.4659 13.028 1.6266e-22 x1 -0.0082475 0.00059836 -13.783 5.3165e-24 x2 0.19694 0.14743 1.3359 0.18493 Number of observations: 94, Error degrees of freedom: 91 Root Mean Squared Error: 4.12 R-squared: 0.743, Adjusted R-Squared: 0.738 F-statistic vs. constant model: 132, p-value = 1.38e-27
Термин x1
в образцовой формуле спецификации соответствует первому столбцу матрицы переменной прогноза X
. Термин x2
соответствует второму столбцу входной матрицы. Термин y
соответствует переменной отклика.
Используйте fitlm
и stepwiselm
, чтобы соответствовать линейным моделям.
Для модели линейной регрессии с прерыванием и двумя предикторами фиксированных эффектов, такой как
задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + x2'
Для модели линейной регрессии без прерывания и двух предикторов фиксированных эффектов, такой как
задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ -1 + x1 + x2'
Для модели линейной регрессии с прерыванием, двумя предикторами фиксированных эффектов, и период взаимодействия, такой как
задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2'
или
'y ~ x1 + x2 + x1:x2'
Для модели линейной регрессии с прерыванием, тремя предикторами фиксированных эффектов и эффектами взаимодействия между всеми тремя предикторами плюс все условия более низкоуровневые, такой как
задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2*x3'
Для модели линейной регрессии с прерыванием, тремя предикторами фиксированных эффектов и эффектами взаимодействия между двумя из предикторов, такой как
задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2 + x3'
или
'y ~ x1 + x2 + x3 + x1:x2'
Для модели линейной регрессии с прерыванием, тремя предикторами фиксированных эффектов и попарными эффектами взаимодействия между всеми тремя предикторами, но, исключая эффект взаимодействия между всеми тремя предикторами одновременно, такой как
задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1*x2*x3 - x1:x2:x3'
Используйте fitlme
и fitlmematrix
, чтобы соответствовать линейным моделям смешанных эффектов.
Для линейной модели смешанных эффектов, которая содержит случайное прерывание, но никакие условия предиктора, такой как
где
и g является группирующей переменной с уровнями m, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ (1 | g)'
Для линейной модели смешанных эффектов, которая содержит фиксированное прерывание, случайное прерывание и зафиксированный наклон для непрерывной переменной прогноза, такой как
где
и g является группирующей переменной с уровнями m, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + (1 | g)'
Для линейной модели смешанных эффектов, которая содержит фиксированное прерывание плюс случайное прерывание и случайный наклон, которые имеют возможную корреляцию между ними, такой как
где
и D является симметричной и положительной полуопределенной ковариационной матрицей 2 на 2, параметризованной вектором компонента отклонения θ, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + (x1 | g)'
Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitlme
при подборе кривой модели. Например, можно задать предположение, что случайное прерывание и случайный наклон независимы друг от друга использующего аргумент пары "имя-значение" 'CovariancePattern'
в fitlme
.
Используйте fitglm
и stepwiseglm
, чтобы соответствовать обобщенным линейным моделям.
В обобщенной линейной модели переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:
Распределение переменной отклика
Функция ссылки
Линейный предиктор
Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящем функциональном fitglm
или stepwiseglm
.
Линейный фрагмент предиктора уравнения, которое появляется на правой стороне символа ~
в образцовой формуле спецификации, использует обозначение Уилкинсона таким же образом что касается линейных образцовых примеров.
Обобщенные линейные образцовые модели функция ссылки, а не фактический ответ, как y. Это отражается в выходном отображении для объекта модели.
Для обобщенной модели линейной регрессии с прерыванием и двумя предикторами, такой как
задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + x2'
Используйте fitglme
, чтобы соответствовать обобщенным линейным моделям смешанных эффектов.
В обобщенной линейной модели смешанных эффектов переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:
Распределение переменной отклика
Функция ссылки
Линейный предиктор
Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящем функциональном fitglme
.
Линейный фрагмент предиктора уравнения, которое появляется на правой стороне символа ~
в образцовой формуле спецификации, использует обозначение Уилкинсона таким же образом что касается линейных примеров модели смешанных эффектов.
Обобщенные линейные образцовые модели ссылка функционируют как y, не сам ответ. Это отражается в выходном отображении для объекта модели.
Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitglme
при подборе кривой модели. Например, можно задать предположение, что случайное прерывание и случайный наклон независимы друг от друга использующего аргумент пары "имя-значение" 'CovariancePattern'
в fitglme
.
Для обобщенной линейной модели смешанных эффектов, которая содержит фиксированное прерывание, случайное прерывание и зафиксированный наклон для непрерывной переменной прогноза, где ответ может быть смоделирован с помощью распределения Пуассона, такой как
где
и g является группирующей переменной с уровнями m, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y ~ x1 + (1 | g)'
Используйте fitrm
, чтобы соответствовать повторенным моделям мер.
Для повторной модели мер с пятью измерениями ответа и одной переменной прогноза, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y1-y5 ~ x1'
Для повторной модели мер с пятью измерениями ответа и тремя переменными прогноза, плюс взаимодействие между двумя из переменных прогноза, задают образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:
'y1-y5 ~ x1*x2 + x3'
[1] Уилкинсон, G. N. и К. Э. Роджерс. Символьное описание факториальных моделей для дисперсионного анализа. Общество Статистики Ж. Руаяля 22, стр 392–399, 1973.