Обозначение Уилкинсона предоставляет способ описать модели регрессии и повторных измерений, не задавая значений коэффициентов. Это специализированное обозначение идентифицирует переменную отклика и какие переменные предиктора включить или исключить из модели. Можно также включить квадратные и более высокие условия, условия взаимодействия и сгруппированные переменные в формулу модели.
Определение модели с помощью обозначения Уилкинсона обеспечивает несколько преимуществ:
Можно включать или исключить из модели отдельные предикторы и условия взаимодействия. Для примера используйте 'Interactions'
пара "имя-значение", доступная в каждой модели аппроксимации функций, включает условия взаимодействия для всех пар переменных. Использование вместо этого обозначения Уилкинсона позволяет включать только интересующие вас условия взаимодействия.
Можно изменить формулу модели, не меняя матрицу проекта, если ваши входные данные используют table
тип данных. Например, если вы подбираете начальную модель, используя все доступные переменные предиктора, но принимаете решение удалить переменную, которая не является статистически значимой, то можно переписать формулу модели, чтобы включить только интересующие переменные. Вам не нужно вносить какие-либо изменения в сами входные данные.
Statistics and Machine Learning Toolbox™ предлагает несколько моделирующих функций, которые используют обозначение Уилкинсона, включая:
Линейные модели (использование fitlm
и stepwiselm
)
Обобщенные линейные модели (использование fitglm
)
Линейные модели смешанных эффектов (использование fitlme
и fitlmematrix
)
Обобщенные линейные модели смешанных эффектов (использование fitglme
)
Модели повторных измерений (использование fitrm
)
Модель пропорциональных рисков Кокса (использование fitcox
)
Формула для спецификации модели является вектором символов или строковым скаляром вида y ~ terms
, где y
- имя переменной отклика, и terms
задает модель с помощью имен переменных предиктора и следующих операторов.
Условия предиктора в модели | Уилкинсон Обозначение |
---|---|
точка пересечения | 1 |
нет точки пересечения | –1 |
<reservedrangesplaceholder0> 1 | x1 |
<reservedrangesplaceholder1> 1, <reservedrangesplaceholder0> 2 | x1 + x2 |
<reservedrangesplaceholder3> 1, <reservedrangesplaceholder2> 2, <reservedrangesplaceholder1> 1 <reservedrangesplaceholder0> 2 | x1*x2 или x1 + x2 + x1:x2 |
<reservedrangesplaceholder1> 1 <reservedrangesplaceholder0> 2 | x1:x2 |
<reservedrangesplaceholder1> 1, <reservedrangesplaceholder0> 12 | x1^2 |
<reservedrangesplaceholder0> 12 | x1^2 – x1 |
Обозначение Уилкинсона включает точку пересечения члена в модели по умолчанию, даже если вы не добавляете 1 к формуле модели. Чтобы исключить точку пересечения из модели, используйте -1 в формуле.
The *
оператор (для взаимодействий) и ^
оператор (для мощности и степеней) автоматически включает все условия более низкого порядка. Для примера, если вы задаете x^3
, модель будет автоматически включать x3, x2, и x. Если вы хотите исключить определенные переменные из модели, используйте –
оператор, чтобы удалить нежелательные условия.
Для моделей случайных эффектов и смешанных эффектов спецификация формул включает имена переменных предиктора и сгруппированных переменных. Для примера, если переменная-предиктор x 1 является случайным эффектом, сгруппированным по g переменной, то представьте это в обозначение Уилкинсона следующим образом:
(x1 | g)
Для моделей с повторными измерениями спецификация формул включает все повторные измерения в качестве откликов и факторы как переменные. Задайте переменные отклика для моделей повторных измерений, как описано в следующей таблице.
Условия отклика в модели | Уилкинсон Обозначение |
---|---|
<reservedrangesplaceholder0> 1 | y1 |
<reservedrangesplaceholder2> 1, <reservedrangesplaceholder1> 2, <reservedrangesplaceholder0> 3 | y1,y2,y3 |
<reservedrangesplaceholder4> 1, <reservedrangesplaceholder3> 2, <reservedrangesplaceholder2> 3, <reservedrangesplaceholder1> 4, <reservedrangesplaceholder0> 5 | y1–y5 |
Например, если у вас есть три повторных измерения в качестве откликов и факторы x 1, x 2 и x 3 в качестве переменных-предикторов, то можно задать модель повторных измерений с помощью записи Уилкинсона следующим образом:
y1,y2,y3 ~ x1 + x2 + x3
или
y1-y3 ~ x1 + x2 + x3
Если входные данные (переменные отклика и предиктора) хранятся в таблице или массиве наборов данных, можно задать формулу, используя имена переменных. Для примера загрузите carsmall
выборочные данные. Составьте таблицу, содержащую Weight
, Acceleration
, и MPG
. Назовите каждую переменную, используя 'VariableNames'
Аргумент пары "имя-значение" функции аппроксимации fitlm
. Затем подгоните следующую модель к данным:
load carsmall tbl = table(Weight,Acceleration,MPG, ... 'VariableNames',{'Weight','Acceleration','MPG'}); mdl = fitlm(tbl,'MPG ~ Weight + Acceleration')
mdl = Linear regression model: MPG ~ 1 + Weight + Acceleration Estimated Coefficients: Estimate SE tStat pValue __________ __________ _______ __________ (Intercept) 45.155 3.4659 13.028 1.6266e-22 Weight -0.0082475 0.00059836 -13.783 5.3165e-24 Acceleration 0.19694 0.14743 1.3359 0.18493 Number of observations: 94, Error degrees of freedom: 91 Root Mean Squared Error: 4.12 R-squared: 0.743, Adjusted R-Squared: 0.738 F-statistic vs. constant model: 132, p-value = 1.38e-27
При отображении объекта модели используются имена переменных, указанные в таблице входа.
Если входные данные хранятся как матрица, можно задать формулу, используя имена переменных по умолчанию, такие как y
, x1
, и x2
. Для примера загрузите carsmall
выборочные данные. Создайте матрицу, содержащую переменные предиктора Weight
и Acceleration
. Затем подгоните следующую модель к данным:
load carsmall X = [Weight,Acceleration]; y = MPG; mdl = fitlm(X,y,'y ~ x1 + x2')
mdl = Linear regression model: y ~ 1 + x1 + x2 Estimated Coefficients: Estimate SE tStat pValue __________ __________ _______ __________ (Intercept) 45.155 3.4659 13.028 1.6266e-22 x1 -0.0082475 0.00059836 -13.783 5.3165e-24 x2 0.19694 0.14743 1.3359 0.18493 Number of observations: 94, Error degrees of freedom: 91 Root Mean Squared Error: 4.12 R-squared: 0.743, Adjusted R-Squared: 0.738 F-statistic vs. constant model: 132, p-value = 1.38e-27
Термин x1
в формуле спецификации модели соответствует первому столбцу матрицы переменных предиктора X
. Термин x2
соответствует второму столбцу матрицы входа. Термин y
соответствует переменной отклика.
Использовать fitlm
и stepwiselm
для соответствия линейным моделям.
Для линейной регрессионой модели с точкой пересечения и двумя предикторами с фиксированными эффектами, такими как
задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ x1 + x2'
Для линейной регрессионой модели без точки пересечения и двух предикторов фиксированных эффектов, таких как
задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ -1 + x1 + x2'
Для линейной регрессионой модели с точкой пересечения, двумя предикторами фиксированных эффектов и термином взаимодействия, таким как
задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ x1*x2'
или
'y ~ x1 + x2 + x1:x2'
Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между всеми тремя предикторами плюс все условия более низкого порядка, такие как
задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ x1*x2*x3'
Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами взаимодействия между двумя предикторами, такими как
задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ x1*x2 + x3'
или
'y ~ x1 + x2 + x3 + x1:x2'
Для модели линейной регрессии с точкой пересечения, тремя предикторами фиксированных эффектов и эффектами парного взаимодействия между всеми тремя предикторами, но исключая эффект взаимодействия между всеми тремя предикторами одновременно, такими как
задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ x1*x2*x3 - x1:x2:x3'
Использовать fitlme
и fitlmematrix
для соответствия линейным моделям смешанных эффектов.
Для линейной модели со смешанными эффектами, которая содержит случайную точку пересечения, но не содержит предикторных членов, таких как
где
и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона следующим образом:
'y ~ (1 | g)'
Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и фиксированный наклон для переменной непрерывного предиктора, такой как
где
и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона следующим образом:
'y ~ x1 + (1 | g)'
Для линейной модели смешанных эффектов, которая содержит фиксированную точку пересечения, плюс случайную точку пересечения и случайный наклон, которые имеют возможную корреляцию между ними, такие как
где
и D симметричная и положительная полуопределенная матрица ковариации 2 на 2, параметризованная вектором отклонение компонента, задаёт формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ x1 + (x1 | g)'
Шаблон ковариационной матрицы случайных эффектов определяется функцией аппроксимации модели. Чтобы задать ковариационный матричный шаблон, используйте пары "имя-значение", доступные через fitlme
при подгонке модели. Для примера можно задать предположение, что случайные точки пересечения и случайный наклон независимы друг от друга, используя 'CovariancePattern'
аргумент пары "имя-значение" в fitlme
.
Использовать fitglm
и stepwiseglm
для соответствия обобщенным линейным моделям.
В обобщенной линейной модели переменная y отклика имеет распределение, отличное от нормального, но можно представлять модель как уравнение, которое является линейным в коэффициентах регрессии. Установка обобщенной линейной модели требует трех частей:
Распределение переменной отклика
Функция Link
Линейный предиктор
Распределение переменной отклика и функции ссылки задается с помощью аргументов пары "имя-значение" в функции fit fitglm
или stepwiseglm
.
Линейный фрагмент предиктора уравнения, которая появляется с правой стороны ~
символ в формуле спецификации модели, использует обозначение Уилкинсона так же, как и для примеров линейной модели.
Обобщенная линейная модель моделирует функцию ссылки, а не фактическую характеристику, как y. Это отражено в выходе отображения для объекта модели.
Для обобщенной линейной регрессионой модели с точкой пересечения и двумя предикторами, такими как
задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y ~ x1 + x2'
Использовать fitglme
для соответствия обобщенным линейным моделям смешанных эффектов.
В обобщенной модели линейных смешанных эффектов переменная y отклика имеет распределение, отличное от нормального, но можно представлять модель как уравнение, которое линейно в коэффициентах регрессии. Установка обобщенной линейной модели требует трех частей:
Распределение переменной отклика
Функция Link
Линейный предиктор
Распределение переменной отклика и функции ссылки задается с помощью аргументов пары "имя-значение" в функции fit fitglme
.
Линейный фрагмент предиктора уравнения, которая появляется с правой стороны ~
символ в формуле спецификации модели, использует обозначение Уилкинсона так же, как и для примеров линейной модели смешанных эффектов.
Обобщенная линейная модель моделирует функцию ссылки как y, а не сам ответ. Это отражено в выходе отображения для объекта модели.
Шаблон ковариационной матрицы случайных эффектов определяется функцией аппроксимации модели. Чтобы задать ковариационный матричный шаблон, используйте пары "имя-значение", доступные через fitglme
при подгонке модели. Для примера можно задать предположение, что случайные точки пересечения и случайный наклон независимы друг от друга, используя 'CovariancePattern'
аргумент пары "имя-значение" в fitglme
.
Для обобщенной модели линейных смешанных эффектов, которая содержит фиксированную точку пересечения, случайную точку пересечения и фиксированный наклон для переменной непрерывного предиктора, где реакция может быть смоделирована с помощью распределения Пуассона, такого как
где
и g является сгруппированной переменной с уровнями m, задайте формулу модели с помощью обозначения Уилкинсона следующим образом:
'y ~ x1 + (1 | g)'
Использовать fitrm
для соответствия моделям повторных измерений.
Для модели с повторными измерениями с пятью измерениями отклика и одной переменной предиктора задайте формулу модели с использованием обозначения Уилкинсона следующим образом:
'y1-y5 ~ x1'
Для модели с повторными измерениями с пятью измерениями отклика и три переменных предиктора плюс взаимодействие между две переменных предиктора, задайте формулу модели, используя обозначение Уилкинсона следующим образом:
'y1-y5 ~ x1*x2 + x3'
[1] Уилкинсон, Г. Н. и К. Э. Роджерс. Символическое описание факториальных моделей для дисперсионного анализа. J. Королевское статистическое общество 22, стр. 392-399, 1973.