Уилкинсон Обозначение

Обзор

Обозначение Уилкинсона предоставляет способ описать модели регрессии и повторных измерений, не задавая значений коэффициентов. Это специализированное обозначение идентифицирует переменную отклика и какие переменные предиктора включить или исключить из модели. Можно также включить квадратные и более высокие условия, условия взаимодействия и сгруппированные переменные в формулу модели.

Определение модели с помощью обозначения Уилкинсона обеспечивает несколько преимуществ:

Можно включать или исключить из модели отдельные предикторы и условия взаимодействия. Для примера используйте 'Interactions' пара "имя-значение", доступная в каждой модели аппроксимации функций, включает условия взаимодействия для всех пар переменных. Использование вместо этого обозначения Уилкинсона позволяет включать только интересующие вас условия взаимодействия.
Можно изменить формулу модели, не меняя матрицу проекта, если ваши входные данные используют table тип данных. Например, если вы подбираете начальную модель, используя все доступные переменные предиктора, но принимаете решение удалить переменную, которая не является статистически значимой, то можно переписать формулу модели, чтобы включить только интересующие переменные. Вам не нужно вносить какие-либо изменения в сами входные данные.

Statistics and Machine Learning Toolbox™ предлагает несколько моделирующих функций, которые используют обозначение Уилкинсона, включая:

Линейные модели (использование fitlm и stepwiselm)
Обобщенные линейные модели (использование fitglm)
Линейные модели смешанных эффектов (использование fitlme и fitlmematrix)
Обобщенные линейные модели смешанных эффектов (использование fitglme)
Модели повторных измерений (использование fitrm)
Модель пропорциональных рисков Кокса (использование fitcox)

Спецификация Формулы

Формула для спецификации модели является вектором символов или строковым скаляром вида y ~ terms, где y - имя переменной отклика, и terms задает модель с помощью имен переменных предиктора и следующих операторов.

Переменные предиктора

Условия предиктора в модели	Уилкинсон Обозначение
точка пересечения	`1`
нет точки пересечения	`–1`
<reservedrangesplaceholder0> 1	`x1`
<reservedrangesplaceholder1> 1, <reservedrangesplaceholder0> 2	`x1 + x2`
<reservedrangesplaceholder3> 1, <reservedrangesplaceholder2> 2, <reservedrangesplaceholder1> 1 <reservedrangesplaceholder0> 2	`x1*x2` или `x1 + x2 + x1:x2`
<reservedrangesplaceholder1> 1 <reservedrangesplaceholder0> 2	`x1:x2`
<reservedrangesplaceholder1> 1, <reservedrangesplaceholder0> 1²	`x1^2`
<reservedrangesplaceholder0> 1²	`x1^2 – x1`

Обозначение Уилкинсона включает точку пересечения члена в модели по умолчанию, даже если вы не добавляете 1 к формуле модели. Чтобы исключить точку пересечения из модели, используйте -1 в формуле.

The * оператор (для взаимодействий) и ^ оператор (для мощности и степеней) автоматически включает все условия более низкого порядка. Для примера, если вы задаете x^3, модель будет автоматически включать x³, x², и x. Если вы хотите исключить определенные переменные из модели, используйте – оператор, чтобы удалить нежелательные условия.

Модели случайных эффектов и смешанных эффектов

Для моделей случайных эффектов и смешанных эффектов спецификация формул включает имена переменных предиктора и сгруппированных переменных. Для примера, если переменная-предиктор x 1 является случайным эффектом, сгруппированным по g переменной, то представьте это в обозначение Уилкинсона следующим образом:

(x1 | g)

Модели повторных измерений

Для моделей с повторными измерениями спецификация формул включает все повторные измерения в качестве откликов и факторы как переменные. Задайте переменные отклика для моделей повторных измерений, как описано в следующей таблице.

Условия отклика в модели	Уилкинсон Обозначение
<reservedrangesplaceholder0> 1	`y1`
<reservedrangesplaceholder2> 1, <reservedrangesplaceholder1> 2, <reservedrangesplaceholder0> 3	`y1,y2,y3`
<reservedrangesplaceholder4> 1, <reservedrangesplaceholder3> 2, <reservedrangesplaceholder2> 3, <reservedrangesplaceholder1> 4, <reservedrangesplaceholder0> 5	`y1–y5`

Например, если у вас есть три повторных измерения в качестве откликов и факторы x 1, _x 2 и x 3 в качестве переменных-предикторов, то можно задать модель повторных измерений с помощью записи Уилкинсона следующим образом:

y1,y2,y3 ~ x1 + x2 + x3

или

y1-y3 ~ x1 + x2 + x3

Имена переменных

Если входные данные (переменные отклика и предиктора) хранятся в таблице или массиве наборов данных, можно задать формулу, используя имена переменных. Для примера загрузите carsmall выборочные данные. Составьте таблицу, содержащую Weight, Acceleration, и MPG. Назовите каждую переменную, используя 'VariableNames' Аргумент пары "имя-значение" функции аппроксимации fitlm. Затем подгоните следующую модель к данным:

$M P G = β_{0} + β_{1} W e i g h t + β_{2} A c c e l e r a t i o n$

load carsmall
tbl = table(Weight,Acceleration,MPG, ...
    'VariableNames',{'Weight','Acceleration','MPG'});
mdl = fitlm(tbl,'MPG ~ Weight + Acceleration')

mdl = 


Linear regression model:
    MPG ~ 1 + Weight + Acceleration

Estimated Coefficients:
                     Estimate         SE         tStat       pValue  
                    __________    __________    _______    __________

    (Intercept)         45.155        3.4659     13.028    1.6266e-22
    Weight          -0.0082475    0.00059836    -13.783    5.3165e-24
    Acceleration       0.19694       0.14743     1.3359       0.18493


Number of observations: 94, Error degrees of freedom: 91
Root Mean Squared Error: 4.12
R-squared: 0.743,  Adjusted R-Squared: 0.738
F-statistic vs. constant model: 132, p-value = 1.38e-27

При отображении объекта модели используются имена переменных, указанные в таблице входа.

Если входные данные хранятся как матрица, можно задать формулу, используя имена переменных по умолчанию, такие как y, x1, и x2. Для примера загрузите carsmall выборочные данные. Создайте матрицу, содержащую переменные предиктора Weight и Acceleration. Затем подгоните следующую модель к данным:

$M P G = β_{0} + β_{1} W e i g h t + β_{2} A c c e l e r a t i o n$

load carsmall
X = [Weight,Acceleration];
y = MPG;
mdl = fitlm(X,y,'y ~ x1 + x2')

mdl = 


Linear regression model:
    y ~ 1 + x1 + x2

Estimated Coefficients:
                    Estimate         SE         tStat       pValue  
                   __________    __________    _______    __________

    (Intercept)        45.155        3.4659     13.028    1.6266e-22
    x1             -0.0082475    0.00059836    -13.783    5.3165e-24
    x2                0.19694       0.14743     1.3359       0.18493


Number of observations: 94, Error degrees of freedom: 91
Root Mean Squared Error: 4.12
R-squared: 0.743,  Adjusted R-Squared: 0.738
F-statistic vs. constant model: 132, p-value = 1.38e-27

Термин x1 в формуле спецификации модели соответствует первому столбцу матрицы переменных предиктора X. Термин x2 соответствует второму столбцу матрицы входа. Термин y соответствует переменной отклика.

Примеры линейной модели

Использовать fitlm и stepwiselm для соответствия линейным моделям.

Точка пересечения и два предиктора

Для линейной регрессионой модели с точкой пересечения и двумя предикторами с фиксированными эффектами, такими как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + ε_{i},$

задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ x1 + x2'

Нет точки пересечения и два предиктора

Для линейной регрессионой модели без точки пересечения и двух предикторов фиксированных эффектов, таких как

$y_{i} = β_{1} x_{i 1} + β_{2} x_{i 2} + ε_{i},$

задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ -1 + x1 + x2'

Точка пересечения, два предиктора и срок взаимодействия

Для линейной регрессионой модели с точкой пересечения, двумя предикторами фиксированных эффектов и термином взаимодействия, таким как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 1} x_{i 2} + ε_{i},$

задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ x1*x2'

или

'y ~ x1 + x2 + x1:x2'

Точка пересечения, три предиктора и все эффекты взаимодействия

Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между всеми тремя предикторами плюс все условия более низкого порядка, такие как

$y_{i} = β_{0} + β_{1} x i_{1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + β_{5} x_{1} x_{i 3} + β_{6} x_{2} x_{i 3} + β_{7} x_{i 1} x_{i 2} x_{i 3} + ε_{i},$

задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ x1*x2*x3'

Точка пересечения, три предиктора и выбранные эффекты взаимодействия

Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между двумя предикторами, такими как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + ε_{i},$

задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ x1*x2 + x3'

или

'y ~ x1 + x2 + x3 + x1:x2'

Точка пересечения, только три предиктора и эффекты взаимодействия более низкого порядка

Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами парного взаимодействия между всеми тремя предикторами, но исключая эффект взаимодействия между всеми тремя предикторами одновременно, такими как

$y_{i} = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2} + β_{3} x_{i 3} + β_{4} x_{1} x_{i 2} + β_{5} x_{i 1} x_{i 3} + β_{6} x_{i 2} x_{i 3} + ε_{i},$

задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ x1*x2*x3 - x1:x2:x3'

Примеры модели линейных смешанных эффектов

Использовать fitlme и fitlmematrix для соответствия линейным моделям смешанных эффектов.

Случайные Точки пересечения эффекта, нет предикторов

Для линейной модели со смешанными эффектами, которая содержит случайную точку пересечения, но не содержит предикторных членов, таких как

$y_{i m} = β_{0 m},$

где

$β_{0 m} = β_{00} + b_{0 m}, b_{0 m} \sim N (0, σ_{0}^{2})$

и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона следующим образом:

'y ~ (1 | g)'

Случайная точка пересечения и фиксированный наклон для одного предсказателя

Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и фиксированный наклон для переменной непрерывного предиктора, такой как

$y_{i m} = β_{0 m} + β_{1} x_{i m},$

где

$β_{0 m} = β_{00} + b_{0 m}, b_{0 m} \sim N (0, σ_{0}^{2})$

'y ~ x1 + (1 | g)'

Случайная точка пересечения и случайный наклон для одного предсказателя

Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, плюс случайную точку пересечения и случайный наклон, которые имеют возможную корреляцию между ними, такие как

$y_{i m} = β_{0 m} + β_{1 m} x_{i m},$

где

$β_{0 m} = β_{00} + b_{0 m}$

$β_{1 m} = β_{10} + b_{1 m}$

$[\begin{matrix} b_{0 m} \\ b_{1 m} \end{matrix}] \sim N {0, σ^{2} D (θ)}$

и D симметричная и положительная полуопределенная матрица ковариации 2 на 2, параметризованная вектором отклонение компонента, задаёт формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ x1 + (x1 | g)'

Шаблон ковариационной матрицы случайных эффектов определяется функцией аппроксимации модели. Чтобы задать ковариационный матричный шаблон, используйте пары "имя-значение", доступные через fitlme при подгонке модели. Для примера можно задать предположение, что случайные точки пересечения и случайный наклон независимы друг от друга, используя 'CovariancePattern' аргумент пары "имя-значение" в fitlme.

Обобщенные примеры линейной модели

Использовать fitglm и stepwiseglm для соответствия обобщенным линейным моделям.

В обобщенной линейной модели переменная y отклика имеет распределение, отличное от нормального, но можно представлять модель как уравнение, которое является линейным в коэффициентах регрессии. Установка обобщенной линейной модели требует трех частей:

Распределение переменной отклика
Функция Link
Линейный предиктор

Распределение переменной отклика и функции ссылки задается с помощью аргументов пары "имя-значение" в функции fit fitglm или stepwiseglm.

Линейный фрагмент предиктора уравнения, которая появляется с правой стороны ~ символ в формуле спецификации модели, использует обозначение Уилкинсона так же, как и для примеров линейной модели.

Обобщенная линейная модель моделирует функцию ссылки, а не фактическую характеристику, как y. Это отражено в выходе отображения для объекта модели.

Точка пересечения и два предиктора

Для обобщенной линейной регрессионой модели с точкой пересечения и двумя предикторами, такими как

$\log (y_{i}) = β_{0} + β_{1} x_{i 1} + β_{2} x_{i 2},$

задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y ~ x1 + x2'

Обобщенные примеры модели линейных смешанных эффектов

Использовать fitglme для соответствия обобщенным линейным моделям смешанных эффектов.

В обобщенной модели линейных смешанных эффектов переменная y отклика имеет распределение, отличное от нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Установка обобщенной линейной модели требует трех частей:

Распределение переменной отклика
Функция Link
Линейный предиктор

Распределение переменной отклика и функции ссылки задается с помощью аргументов пары "имя-значение" в функции fit fitglme.

Обобщенная линейная модель моделирует функцию ссылки как y, а не сам ответ. Это отражено в выходе отображения для объекта модели.

Шаблон ковариационной матрицы случайных эффектов определяется функцией аппроксимации модели. Чтобы задать ковариационный матричный шаблон, используйте пары "имя-значение", доступные через fitglme при подгонке модели. Для примера можно задать предположение, что случайные точки пересечения и случайный наклон независимы друг от друга, используя 'CovariancePattern' аргумент пары "имя-значение" в fitglme.

Случайная точка пересечения и фиксированный наклон для одного предсказателя

Для обобщенной модели линейных смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и фиксированный наклон для переменной непрерывного предиктора, где реакция может быть смоделирована с помощью распределения Пуассона, такого как

$\log (y_{i m}) = β_{0} + β_{1} x_{i m} + b_{i},$

где

$b_{i} \sim N (0, σ_{b}^{2})$

'y ~ x1 + (1 | g)'

Примеры модели повторных измерений

Использовать fitrm для соответствия моделям повторных измерений.

Один предиктор

Для модели с повторными измерениями с пятью измерениями отклика и одной переменной предиктора задайте формулу модели с использованием обозначения Уилкинсона следующим образом:

'y1-y5 ~ x1'

Три предиктора и срок взаимодействия

Для модели с повторными измерениями с пятью измерениями отклика и три переменных предиктора плюс взаимодействие между две переменных предиктора, задайте формулу модели, используя обозначение Уилкинсона следующим образом:

'y1-y5 ~ x1*x2 + x3'

Ссылки

[1] Уилкинсон, Г. Н. и К. Э. Роджерс. Символическое описание факториальных моделей для дисперсионного анализа. J. Королевское статистическое общество 22, стр. 392-399, 1973.

Документация