Обозначение Уилкинсона

Обзор

Обозначение Уилкинсона обеспечивает способ описать регрессию и модели повторных измерений, не задавая содействующие значения. Это специализированное обозначение идентифицирует переменную отклика и который переменные предикторы включать или исключить из модели. Можно также включать термины высшего порядка и в квадрате, периоды взаимодействия и сгруппированные переменные в формуле модели.

Определение модели с помощью обозначения Уилкинсона обеспечивает несколько преимуществ:

Можно включать или исключить отдельные предикторы и периоды взаимодействия из модели. Например, использование 'Interactions' пара "имя-значение", доступная в каждой модели, соответствующей функциям, включает периоды взаимодействия для всех пар переменных. Используя обозначение Уилкинсона вместо этого позволяет вам включать только периоды взаимодействия интереса.
Можно изменить формулу модели, не изменяя матрицу проекта, если входные данные используют table тип данных. Например, если вы подбираете первоначальную модель с помощью всех доступных переменных предикторов, но решаете удалить переменную, которая не является статистически значительной, затем можно переписать формулу модели, чтобы включать только переменные интереса. Вы не должны вносить изменения во входные данные самостоятельно.

Statistics and Machine Learning Toolbox™ предлагает несколько моделей, соответствующих функциям, которые используют обозначение Уилкинсона, включая:

Линейные модели (использование fitlm и stepwiselm)
Обобщенные линейные модели (использование fitglm)
Линейные модели смешанных эффектов (использование fitlme и fitlmematrix)
Обобщенные линейные модели смешанных эффектов (использование fitglme)
Модели повторных измерений (использование fitrm)
Cox пропорциональная модель опасностей (использование fitcox)

Спецификация формулы

Формула для спецификации модели является вектором символов или строковым скаляром формы y ~ terms, где y имя переменной отклика и terms задает модель с помощью имен переменного предиктора и следующих операторов.

Переменные предикторы

Условия предиктора в модели	Обозначение Уилкинсона
точка пересечения	1
никакая точка пересечения	–1
x1	`x1`
x1, x2	`x1 + x2`
x ₁, x ₂, x _1x2	`x1*x2` или `x1 + x2 + x1:x2`
x1, x2	`x1:x2`
x ₁, x ₁²	`x1^2`
x1 ²	`x1^2 – x1`

Обозначение Уилкинсона включает член в модели точки пересечения по умолчанию, даже если вы не добавляете 1 к формуле модели. Чтобы исключить точку пересечения из модели, используйте-1 в формуле.

* оператор (для взаимодействий) и ^ оператор (для степени и экспонент) автоматически включает все термины более низкоуровневые. Например, если вы задаете x^3, модель будет автоматически включать x³X², и x. Если вы хотите исключить определенные переменные из модели, используйте – оператор, чтобы удалить нежелательные термины.

Случайные эффекты и модели Смешанных Эффектов

Для случайных эффектов и моделей смешанных эффектов, спецификация формулы включает имена переменных предикторов и сгруппированных переменных. Например, если переменный предиктор, x ₁ является случайным эффектом, сгруппированным переменной g, то представляет это в обозначении Уилкинсона можно следующим образом:

(x1 | g)

Модели повторных измерений

Для моделей повторных измерений спецификация формулы включает все повторные измерения как ответы и факторы как переменные предикторы. Задайте переменные отклика для моделей повторных измерений как описано в следующей таблице.

Условия ответа в модели	Обозначение Уилкинсона
y ₁	`y1`
y ₁, y ₂, y ₃	`y1,y2,y3`
y ₁, y ₂, y ₃, y ₄, y ₅	`y1–y5`

Например, если у вас есть три повторных измерения как ответы и факторы x ₁, x ₂, и x ₃ как переменные предикторы, затем можно задать модель повторных измерений использование обозначения Уилкинсона можно следующим образом:

y1,y2,y3 ~ x1 + x2 + x3

или

y1-y3 ~ x1 + x2 + x3

Имена переменных

Если входные данные (переменные отклика и переменные предикторы) хранятся в таблице или массиве набора данных, можно задать формулу с помощью имен переменных. Например, загрузите carsmall выборочные данные. Составьте таблицу, содержащую Weight, Acceleration, и MPG. Назовите каждую переменную с помощью 'VariableNames' аргумент пары "имя-значение" подходящей функции fitlm. Затем подбирайте следующую модель к данным:

$M P G = β_{0} + β_{1} W e i g h t + β_{2} A c c e l e r a t i o n$

load carsmall
tbl = table(Weight,Acceleration,MPG, ...
    'VariableNames',{'Weight','Acceleration','MPG'});
mdl = fitlm(tbl,'MPG ~ Weight + Acceleration')

mdl = 


Linear regression model:
    MPG ~ 1 + Weight + Acceleration

Estimated Coefficients:
                     Estimate         SE         tStat       pValue  
                    __________    __________    _______    __________

    (Intercept)         45.155        3.4659     13.028    1.6266e-22
    Weight          -0.0082475    0.00059836    -13.783    5.3165e-24
    Acceleration       0.19694       0.14743     1.3359       0.18493


Number of observations: 94, Error degrees of freedom: 91
Root Mean Squared Error: 4.12
R-squared: 0.743,  Adjusted R-Squared: 0.738
F-statistic vs. constant model: 132, p-value = 1.38e-27

Отображение объекта модели использует имена переменных, обеспеченные во входной таблице.

Если входные данные хранятся как матрица, можно задать формулу с помощью имен переменных по умолчанию, таких как yx1 , и x2. Например, загрузите carsmall выборочные данные. Создайте матрицу, содержащую переменные предикторы Weight и Acceleration. Затем подбирайте следующую модель к данным:

$M P G = β_{0} + β_{1} W e i g h t + β_{2} A c c e l e r a t i o n$

load carsmall
X = [Weight,Acceleration];
y = MPG;
mdl = fitlm(X,y,'y ~ x1 + x2')

mdl = 


Linear regression model:
    y ~ 1 + x1 + x2

Estimated Coefficients:
                    Estimate         SE         tStat       pValue  
                   __________    __________    _______    __________

    (Intercept)        45.155        3.4659     13.028    1.6266e-22
    x1             -0.0082475    0.00059836    -13.783    5.3165e-24
    x2                0.19694       0.14743     1.3359       0.18493


Number of observations: 94, Error degrees of freedom: 91
Root Mean Squared Error: 4.12
R-squared: 0.743,  Adjusted R-Squared: 0.738
F-statistic vs. constant model: 132, p-value = 1.38e-27

Термин x1 в спецификации модели формула соответствует первому столбцу матрицы переменного предиктора X. Термин x2 соответствует второму столбцу входной матрицы. Термин y соответствует переменной отклика.

Линейные примеры модели

Использование fitlm и stepwiselm подбирать линейные модели.

Прервите и два предиктора

Для модели линейной регрессии с точкой пересечения и двумя предикторами фиксированных эффектов, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + ε_{i},$

задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1 + x2'

Никакая точка пересечения и два предиктора

Для модели линейной регрессии без точки пересечения и двух предикторов фиксированных эффектов, такой как

$y_{i} = β_{1} x_{i 1} + β_{2} x_{i 2} + ε_{i},$

задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ -1 + x1 + x2'

Прервите, два предиктора, и период взаимодействия

Для модели линейной регрессии с точкой пересечения, двумя предикторами фиксированных эффектов, и период взаимодействия, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 1} x_{i 2} + ε_{i},$

задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2'

или

'y ~ x1 + x2 + x1:x2'

Прервите, три предиктора и все эффекты взаимодействия

Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между всеми тремя предикторами плюс все термины более низкоуровневые, такой как

$y_{i} = β_{0} + β_{1} x i_{1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + β_{5} x_{1} x_{i 3} + β_{6} x_{2} x_{i 3} + β_{7} x_{i 1} x_{i 2} x_{i 3} + ε_{i},$

задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2*x3'

Прервите, три предиктора и выбранные эффекты взаимодействия

Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между двумя из предикторов, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + ε_{i},$

задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2 + x3'

или

'y ~ x1 + x2 + x3 + x1:x2'

Прервите, три предиктора и эффекты взаимодействия более низкоуровневые только

Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и попарными эффектами взаимодействия между всеми тремя предикторами, но, исключая эффект взаимодействия между всеми тремя предикторами одновременно, такой как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + β_{5} x_{i 1} x_{i 3} + β_{6} x_{i 2} x_{i 3} + ε_{i},$

задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1*x2*x3 - x1:x2:x3'

Линейные примеры модели Смешанных Эффектов

Использование fitlme и fitlmematrix подбирать линейные модели смешанных эффектов.

Случайная точка пересечения эффекта, никакие предикторы

Для линейной модели смешанных эффектов, которая содержит случайную точку пересечения, но никакие термины предиктора, такой как

$y_{i m} = β_{0 m},$

где

$β_{0 m} = β_{00} + b_{0 m}, b_{0 m} \sim N (0, σ_{0}^{2})$

и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ (1 | g)'

Случайная точка пересечения и фиксированный наклон для одного предиктора

Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и зафиксированный наклон для непрерывного переменного предиктора, такой как

$y_{i m} = β_{0 m} + β_{1} x_{i m},$

где

$β_{0 m} = β_{00} + b_{0 m}, b_{0 m} \sim N (0, σ_{0}^{2})$

'y ~ x1 + (1 | g)'

Случайная точка пересечения и случайный наклон для одного предиктора

Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения плюс случайная точка пересечения и случайный наклон, которые имеют возможную корреляцию между ними, такой как

$y_{i m} = β_{0 m} + β_{1 m} x_{i m},$

где

$β_{0 m} = β_{00} + b_{0 m}$

$β_{1 m} = β_{10} + b_{1 m}$

$[\begin{matrix} b_{0 m} \\ b_{1 m} \end{matrix}] \sim N {0, σ^{2} D (θ)}$

и D является симметричной и положительной полуопределенной ковариационной матрицей 2 на 2, параметрированной вектором компонента отклонения θ, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1 + (x1 | g)'

Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitlme подбирая модель. Например, можно задать предположение, что случайная точка пересечения и случайный наклон независимы друг от друга использующего 'CovariancePattern' аргумент пары "имя-значение" в fitlme.

Обобщенные линейные примеры модели

Использование fitglm и stepwiseglm подбирать обобщенные линейные модели.

В обобщенной линейной модели переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:

Распределение переменной отклика
Функция ссылки
Линейный предиктор

Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящей функции fitglm или stepwiseglm.

Линейный фрагмент предиктора уравнения, которое появляется на правой стороне ~ символ в формуле спецификации модели, обозначение Уилкинсона использования таким же образом что касается линейных примеров модели.

Обобщенные линейные модели модели функция ссылки, а не фактический ответ, как y. Это отражается в выходном отображении для объекта модели.

Прервите и два предиктора

Для обобщенной линейной модели регрессии с точкой пересечения и двумя предикторами, такой как

$\log (y_{i}) = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2},$

задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y ~ x1 + x2'

Обобщенные линейные примеры модели Смешанных Эффектов

Использование fitglme подбирать обобщенные линейные модели смешанных эффектов.

В обобщенной линейной модели смешанных эффектов переменная отклика y имеет распределение кроме нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Определение обобщенной линейной модели требует трех частей:

Распределение переменной отклика
Функция ссылки
Линейный предиктор

Распределение переменной отклика и функции ссылки задано с помощью аргументов пары "имя-значение" в подходящей функции fitglme.

Обобщенные линейные модели модели ссылка функционируют как y, не сам ответ. Это отражается в выходном отображении для объекта модели.

Шаблон случайной ковариационной матрицы эффектов определяется моделью, соответствующей функции. Чтобы задать шаблон ковариационной матрицы, используйте пары "имя-значение", доступные через fitglme подбирая модель. Например, можно задать предположение, что случайная точка пересечения и случайный наклон независимы друг от друга использующего 'CovariancePattern' аргумент пары "имя-значение" в fitglme.

Случайная точка пересечения и фиксированный наклон для одного предиктора

Для обобщенной линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и зафиксированный наклон для непрерывного переменного предиктора, где ответ может быть смоделирован с помощью распределения Пуассона, такой как

$\log (y_{i m}) = β_{0} + β_{1} x_{i m} + b_{i},$

где

$b_{i} \sim N (0, σ_{b}^{2})$

'y ~ x1 + (1 | g)'

Примеры модели повторных измерений

Использование fitrm подбирать модели повторных измерений.

Один предиктор

Для модели повторных измерений с пятью измерениями ответа и одним переменным предиктором, задайте формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y1-y5 ~ x1'

Три предиктора и период взаимодействия

Для модели повторных измерений с пятью измерениями ответа и тремя переменными предикторами, плюс взаимодействие между двумя из переменных предикторов, задают формулу модели с помощью обозначения Уилкинсона можно следующим образом:

'y1-y5 ~ x1*x2 + x3'

Ссылки

[1] Уилкинсон, G. N. и К. Э. Роджерс. "Символьное описание факториальных моделей для дисперсионного анализа". Общество Статистики Ж. Руаяля 22, стр 392–399, 1973.

Документация Statistics and Machine Learning Toolbox

Поддержка

Сообщество Экспонента