Обозначение Уилкинсона

Обзор

Обозначение Уилкинсона обеспечивает способ описать регрессию и повторенные модели мер, не задавая содействующие значения. Это специализированное обозначение идентифицирует переменную отклика и который переменные прогноза включать или исключить из модели. Можно также включать условия высшего порядка и в квадрате, периоды взаимодействия и группирующие переменные в образцовой формуле.

Определение модели с помощью обозначения Уилкинсона обеспечивает несколько преимуществ:

Можно включать или исключить отдельные предикторы и периоды взаимодействия из модели. Например, использование пары "имя-значение" 'Interactions', доступной в каждой модели, соответствующей функциям, включает периоды взаимодействия для всех пар переменных. Используя обозначение Уилкинсона вместо этого позволяет вам включать только периоды взаимодействия интереса.
Можно изменить образцовую формулу, не изменяя матрицу проекта, если входные данные используют тип данных table. Например, если вы соответствуете первоначальной модели с помощью всех доступных переменных прогноза, но решаете удалить переменную, которая не является статистически значительной, затем можно переписать образцовую формулу, чтобы включать только переменные интереса. Вы не должны вносить изменения во входные данные самостоятельно.

Statistics and Machine Learning Toolbox™ предлагает несколько моделей, соответствующих функциям, которые используют обозначение Уилкинсона, включая:

Линейные модели (использующий fitlm и stepwiselm)
Обобщенные линейные модели (использующий fitglm)
Линейные модели смешанных эффектов (использующий fitlme и fitlmematrix)
Обобщенные линейные модели смешанных эффектов (использующий fitglme)
Повторные модели мер (использующий fitrm)

Спецификация формулы

Формула для образцовой спецификации является вектором символов или скаляром строки формы y ~ terms, где y является именем переменной отклика, и terms задает модель с помощью имен переменной прогноза и следующих операторов.

Переменные прогноза

Условия предиктора в модели	Обозначение Уилкинсона
прерывание	1
никакое прерывание	–1
x1	`x1`
x1, x2	`x1 + x2`
x ₁, x ₂, x _1x2	`x1*x2` или `x1 + x2 + x1:x2`
x1, x2	`x1:x2`
x ₁, x ₁₂	`x1^2`
x ₁₂	`x1^2 – x1`

Обозначение Уилкинсона включает член в модели прерывания по умолчанию, даже если вы не добавляете 1 к образцовой формуле. Чтобы исключить прерывание из модели, используйте-1 в формуле.

Оператор * (для взаимодействий) и оператор ^ (для степени и экспонент) автоматически включают все условия более низкоуровневые. Например, если вы зададите x^3, модель будет автоматически включать x ³, x ², и x. Если вы хотите исключить определенные переменные из модели, используйте оператор –, чтобы удалить нежелательные условия.

Случайные эффекты и модели Смешанных Эффектов

Для случайных эффектов и моделей смешанных эффектов, спецификация формулы включает имена переменных прогноза и группирующих переменных. Например, если переменная прогноза, x ₁ является случайным эффектом, сгруппированным переменной g, то представляет это в обозначении Уилкинсона можно следующим образом:

(x1 | g)

Повторные модели мер

Для повторных моделей мер спецификация формулы включает все повторные меры как ответы и факторы как переменные прогноза. Задайте переменные отклика для повторных моделей мер, как описано в следующей таблице.

Условия ответа в модели	Обозначение Уилкинсона
y ₁	`y1`
y ₁, y ₂, y ₃	`y1,y2,y3`
y ₁, y ₂, y ₃, y ₄, y ₅	`y1–y5`

Например, если у вас есть три повторных меры как ответы и факторы x ₁, x ₂, и x ₃ как переменные прогноза, затем можно задать повторную модель мер использование обозначения Уилкинсона можно следующим образом:

y1,y2,y3 ~ x1 + x2 + x3

или

y1-y3 ~ x1 + x2 + x3

Имена переменных

Если входные данные (переменные отклика и переменные прогноза) хранятся в таблице или массиве набора данных, можно задать формулу с помощью имен переменных. Например, загрузите выборочные данные carsmall. Составьте таблицу, содержащую Weight, Acceleration и MPG. Назовите каждую переменную с помощью аргумента пары "имя-значение" 'VariableNames' подходящего функционального fitlm. Затем соответствуйте следующей модели к данным:

$M P G = β_{0} + β_{1} W e i g h t + β_{2} A c c e l e r a t i o n$

load carsmall
tbl = table(Weight,Acceleration,MPG, ...
    'VariableNames',{'Weight','Acceleration','MPG'});
mdl = fitlm(tbl,'MPG ~ Weight + Acceleration')

mdl = 


Linear regression model:
    MPG ~ 1 + Weight + Acceleration

Estimated Coefficients:
                     Estimate         SE         tStat       pValue  
                    __________    __________    _______    __________

    (Intercept)         45.155        3.4659     13.028    1.6266e-22
    Weight          -0.0082475    0.00059836    -13.783    5.3165e-24
    Acceleration       0.19694       0.14743     1.3359       0.18493


Number of observations: 94, Error degrees of freedom: 91
Root Mean Squared Error: 4.12
R-squared: 0.743,  Adjusted R-Squared: 0.738
F-statistic vs. constant model: 132, p-value = 1.38e-27

Отображение объекта модели использует имена переменных, обеспеченные во входной таблице.

Если входные данные хранятся как матрица, можно задать формулу с помощью имен переменных по умолчанию, таких как y, x1 и x2. Например, загрузите выборочные данные carsmall. Создайте матрицу, содержащую переменные прогноза Weight и Acceleration. Затем соответствуйте следующей модели к данным:

$M P G = β_{0} + β_{1} W e i g h t + β_{2} A c c e l e r a t i o n$

load carsmall
X = [Weight,Acceleration];
y = MPG;
mdl = fitlm(X,y,'y ~ x1 + x2')

mdl = 


Linear regression model:
    y ~ 1 + x1 + x2

Estimated Coefficients:
                    Estimate         SE         tStat       pValue  
                   __________    __________    _______    __________

    (Intercept)        45.155        3.4659     13.028    1.6266e-22
    x1             -0.0082475    0.00059836    -13.783    5.3165e-24
    x2                0.19694       0.14743     1.3359       0.18493


Number of observations: 94, Error degrees of freedom: 91
Root Mean Squared Error: 4.12
R-squared: 0.743,  Adjusted R-Squared: 0.738
F-statistic vs. constant model: 132, p-value = 1.38e-27

Термин x1 в образцовой формуле спецификации соответствует первому столбцу матрицы переменной прогноза X. Термин x2 соответствует второму столбцу входной матрицы. Термин y соответствует переменной отклика.

Линейные образцовые примеры

Используйте fitlm и stepwiselm, чтобы соответствовать линейным моделям.

Прервите и два предиктора

Для модели линейной регрессии с прерыванием и двумя предикторами фиксированных эффектов, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + ε_{i},$

задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1 + x2'

Никакое прерывание и два предиктора

Для модели линейной регрессии без прерывания и двух предикторов фиксированных эффектов, такой как

$y_{i} = β_{1} x_{i 1} + β_{2} x_{i 2} + ε_{i},$

задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ -1 + x1 + x2'

Прервите, два предиктора, и период взаимодействия

Для модели линейной регрессии с прерыванием, двумя предикторами фиксированных эффектов, и период взаимодействия, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 1} x_{i 2} + ε_{i},$

задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2'

или

'y ~ x1 + x2 + x1:x2'

Прервите, три предиктора и все эффекты взаимодействия

Для модели линейной регрессии с прерыванием, тремя предикторами фиксированных эффектов и эффектами взаимодействия между всеми тремя предикторами плюс все условия более низкоуровневые, такой как

$y_{i} = β_{0} + β_{1} x i_{1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + β_{5} x_{1} x_{i 3} + β_{6} x_{2} x_{i 3} + β_{7} x_{i 1} x_{i 2} x_{i 3} + ε_{i},$

задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2*x3'

Прервите, три предиктора и выбранные эффекты взаимодействия

Для модели линейной регрессии с прерыванием, тремя предикторами фиксированных эффектов и эффектами взаимодействия между двумя из предикторов, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + ε_{i},$

задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2 + x3'

или

'y ~ x1 + x2 + x3 + x1:x2'

Прервите, три предиктора и эффекты взаимодействия более низкоуровневые только

Для модели линейной регрессии с прерыванием, тремя предикторами фиксированных эффектов и попарными эффектами взаимодействия между всеми тремя предикторами, но, исключая эффект взаимодействия между всеми тремя предикторами одновременно, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + β_{5} x_{i 1} x_{i 3} + β_{6} x_{i 2} x_{i 3} + ε_{i},$

задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2*x3 - x1:x2:x3'

Линейные примеры модели Смешанных Эффектов

Используйте fitlme и fitlmematrix, чтобы соответствовать линейным моделям смешанных эффектов.

Случайное прерывание эффекта, никакие предикторы

Для линейной модели смешанных эффектов, которая содержит случайное прерывание, но никакие условия предиктора, такой как

$y_{i m} = β_{0 m},$

где

$β_{0 m} = β_{00} + b_{0 m}, b_{0 m} \sim N (0, σ_{}^{02})$

и g является группирующей переменной с уровнями m, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ (1 | g)'

Случайное прерывание и фиксированный наклон для одного предиктора

Для линейной модели смешанных эффектов, которая содержит фиксированное прерывание, случайное прерывание и зафиксированный наклон для непрерывной переменной прогноза, такой как

$y_{i m} = β_{0 m} + β_{1} x_{i m},$

где

$β_{0 m} = β_{00} + b_{0 m}, b_{0 m} \sim N (0, σ_{}^{02})$

'y ~ x1 + (1 | g)'

Случайное прерывание и случайный наклон для одного предиктора

Для линейной модели смешанных эффектов, которая содержит фиксированное прерывание плюс случайное прерывание и случайный наклон, которые имеют возможную корреляцию между ними, такой как

$y_{i m} = β_{0 m} + β_{1 m} x_{i m},$

где

$β_{0 m} = β_{00} + b_{0 m}$

$β_{1 m} = β_{10} + b_{1 m}$

$[\begin{matrix} b_{0 m} \\ b_{1 m} \end{matrix}] \sim N {0, σ^{2} D (θ)}$

и D является симметричной и положительной полуопределенной ковариационной матрицей 2 на 2, параметризованной вектором компонента отклонения θ, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1 + (x1 | g)'

Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitlme при подборе кривой модели. Например, можно задать предположение, что случайное прерывание и случайный наклон независимы друг от друга использующего аргумент пары "имя-значение" 'CovariancePattern' в fitlme.

Обобщенные линейные образцовые примеры

Используйте fitglm и stepwiseglm, чтобы соответствовать обобщенным линейным моделям.

В обобщенной линейной модели переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:

Распределение переменной отклика
Функция ссылки
Линейный предиктор

Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящем функциональном fitglm или stepwiseglm.

Линейный фрагмент предиктора уравнения, которое появляется на правой стороне символа ~ в образцовой формуле спецификации, использует обозначение Уилкинсона таким же образом что касается линейных образцовых примеров.

Обобщенные линейные образцовые модели функция ссылки, а не фактический ответ, как y. Это отражается в выходном отображении для объекта модели.

Прервите и два предиктора

Для обобщенной модели линейной регрессии с прерыванием и двумя предикторами, такой как

$журнал (y_{i}) = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2},$

задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1 + x2'

Обобщенные линейные примеры модели Смешанных Эффектов

Используйте fitglme, чтобы соответствовать обобщенным линейным моделям смешанных эффектов.

В обобщенной линейной модели смешанных эффектов переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:

Распределение переменной отклика
Функция ссылки
Линейный предиктор

Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящем функциональном fitglme.

Обобщенные линейные образцовые модели ссылка функционируют как y, не сам ответ. Это отражается в выходном отображении для объекта модели.

Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitglme при подборе кривой модели. Например, можно задать предположение, что случайное прерывание и случайный наклон независимы друг от друга использующего аргумент пары "имя-значение" 'CovariancePattern' в fitglme.

Случайное прерывание и фиксированный наклон для одного предиктора

Для обобщенной линейной модели смешанных эффектов, которая содержит фиксированное прерывание, случайное прерывание и зафиксированный наклон для непрерывной переменной прогноза, где ответ может быть смоделирован с помощью распределения Пуассона, такой как

$журнал (y_{i m}) = β_{0} + β_{1} x_{i m} + b_{i},$

где

$b_{i} \sim N (0, σ_{b}^{2})$

'y ~ x1 + (1 | g)'

Повторные примеры модели мер

Используйте fitrm, чтобы соответствовать повторенным моделям мер.

Один предиктор

Для повторной модели мер с пятью измерениями ответа и одной переменной прогноза, задайте образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y1-y5 ~ x1'

Три предиктора и период взаимодействия

Для повторной модели мер с пятью измерениями ответа и тремя переменными прогноза, плюс взаимодействие между двумя из переменных прогноза, задают образцовую формулу с помощью обозначения Уилкинсона можно следующим образом:

'y1-y5 ~ x1*x2 + x3'

Ссылки

[1] Уилкинсон, G. N. и К. Э. Роджерс. Символьное описание факториальных моделей для дисперсионного анализа. Общество Статистики Ж. Руаяля 22, стр 392–399, 1973.

Документация