N-сторонний дисперсионный анализ
возвращает вектор значений p для multivay (n -way) Дисперсионный Анализ с помощью дополнительных опций, заданных одним или несколькими p
= anovan(y
,group
,Name,Value
)Name,Value
аргументы в виде пар.
Для примера можно задать, какая переменная предиктора является непрерывной, если она есть, или тип суммы квадратов, которые нужно использовать.
[
возвращает p
,tbl
,stats
]
= anovan(___)stats
структура, которую можно использовать для выполнения нескольких сравнительных тестов, что позволяет определить, какие пары групповых средств значительно отличаются. Вы можете выполнить такой тест, используя multcompare
функция путем предоставления stats
структура как вход.
Загрузите выборочные данные.
y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]'; g1 = [1 2 1 2 1 2 1 2]; g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};
y
- вектор отклика и g1
, g2
, и g3
являются сгруппированными переменными (факторами). Каждый фактор имеет два уровня и каждое наблюдение в y
определяется комбинацией уровней факторов. Для примера, y(1) наблюдений
связана с уровнем 1 фактора g1
, уровни 'hi'
фактора g2
, и уровни 'may'
фактора g3
. Точно так же y(6)
наблюдений связана с уровнем 2 фактора
g1
, уровни 'hi'
фактора g2
, и уровни 'june'
фактора g3
.
Проверьте, является ли реакция одинаковой для всех уровней факторов.
p = anovan(y,{g1,g2,g3})
p = 3×1
0.4174
0.0028
0.9140
В таблице ANOVA X1
, X2
, и X3
соответствуют факторам g1
, g2
, и g3
, соответственно. Значение p 0,4174 указывает, что средние отклики для уровней 1 и 2 фактора g1
существенно не отличаются. Точно так же значение p 0,914 указывает, что средние отклики для уровней 'may'
и 'june'
, фактора g3
существенно не отличаются. Однако p-значение 0,0028 достаточно мало, чтобы сделать вывод, что средние отклики значительно различаются для двух уровней 'hi'
и 'lo'
фактора g2
. По умолчанию anovan
вычисляет значения p только для трех основных эффектов.
Протестируйте двухфакторные взаимодействия. На этот раз задайте имена переменных.
p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})
p = 6×1
0.0347
0.0048
0.2578
0.0158
0.1444
0.5000
Условия взаимодействия представлены g1*g2
, g1*g3
, и g2*g3
в таблице ANOVA. Первые три записи p
являются значениями p для основных эффектов. Последние три записи являются значениями p для двухсторонних взаимодействий. Значение p 0,0158 указывает, что взаимодействие между g1
и g2
является значительным. Значения p 0,1444 и 0,5 указывают, что соответствующие взаимодействия не значительны.
Загрузите выборочные данные.
load carbig
Данные имеют измерения на 406 автомобилях. Переменная org
показывает, где были сделаны и when
автомобили показывает, когда в году машины были изготовлены.
Изучите, как зависит пробег от того, когда и где были сделаны машины. Также включите двухсторонние взаимодействия в модель.
p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})
p = 3×1
0.0000
0.0000
0.3059
The 'model',2
аргумент пары "имя-значение" представляет двухсторонние взаимодействия. Значение p для члена взаимодействия, 0,3059, не мало, что указывает на мало доказательств того, что эффект времени изготовления (mfg date
) зависит от того, где сделан автомобиль (origin
). Однако основные эффекты источника и даты производства значительны, оба значения p равны 0.
Загрузите выборочные данные.
y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]'; g1 = [1 2 1 2 1 2 1 2]; g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};
y
- вектор отклика и g1
, g2
, и g3
являются сгруппированными переменными (факторами). Каждый фактор имеет два уровня и каждое наблюдение в y
определяется комбинацией уровней факторов. Для примера, y(1) наблюдений
связана с уровнем 1 фактора g1
, уровни 'hi'
фактора g2
, и уровни 'may'
фактора g3
. Точно так же y(6)
наблюдений связана с уровнем 2 фактора
g1
, уровни 'hi'
фактора g2
, и уровни 'june'
фактора g3
.
Проверьте, является ли реакция одинаковой для всех уровней факторов. Также вычислите статистику, необходимую для нескольких сравнительных тестов.
[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',... 'varnames',{'g1','g2','g3'});
Значение p 0,2578 указывает, что средние отклики для уровней 'may'
и 'june'
фактора g3
существенно не отличаются. Значение p 0,0347 указывает, что средние отклики для уровней 1
и 2
фактора g1
значительно отличаются. Точно так же значение p 0,0048 указывает, что средние отклики для уровней 'hi'
и 'lo'
фактора g2
значительно отличаются.
Выполните несколько сравнительных тестов, чтобы выяснить, какие группы факторов g1
и g2
значительно отличаются.
results = multcompare(stats,'Dimension',[1 2])
results = 6×6
1.0000 2.0000 -6.8604 -4.4000 -1.9396 0.0272
1.0000 3.0000 4.4896 6.9500 9.4104 0.0170
1.0000 4.0000 6.1396 8.6000 11.0604 0.0136
2.0000 3.0000 8.8896 11.3500 13.8104 0.0101
2.0000 4.0000 10.5396 13.0000 15.4604 0.0087
3.0000 4.0000 -0.8104 1.6500 4.1104 0.0737
multcompare
сравнивает комбинации групп (уровней) двух сгруппированных переменных, g1
и g2
. В results
матрица, число 1 соответствует комбинации уровней 1
от g1
и уровни hi
от g2
, число 2 соответствует комбинации уровней 2
от g1
и уровни hi
от g2
. Точно так же число 3 соответствует комбинации уровней 1
от g1
и уровни lo
от g2
, и число 4 соответствует комбинации уровней 2
от g1
и уровни lo
от g2
. Последний столбец матрицы содержит p-значения.
Для примера первая строка матрицы показывает, что комбинация уровней 1
от g1
и уровни hi
от g2
имеет те же средние значения отклика, что и комбинация 2 уровня
от g1
и уровни hi
от g2
. Значение p, соответствующее этому тесту, составляет 0,0280, что указывает на то, что средние отклики значительно отличаются. Этот результат можно также увидеть на рисунке. Синяя полоса показывает интервал сравнения для средней характеристики для комбинации уровней 1
от g1
и уровни hi
от g2
. Красные полосы являются интервалами сравнения для среднего отклика для других комбинаций групп. Ни одна из красных полос не перекрывается с синей полоской, что означает среднюю характеристику для комбинации 1
уровня от
g1
и уровни hi
от g2
значительно отличается от среднего отклика для других групповых комбинаций.
Можно протестировать другие группы, щелкнув на соответствующем интервале сравнения для группы. Панель, на которой вы нажимаете, становится синей. Столбцы для групп, которые значительно отличаются, являются красными. Столбцы для групп, которые существенно не отличаются, являются серыми. Для примера, если вы кликните по интервалу сравнения для комбинации уровней 1
от g1
и уровни lo
от g2
, интервал сравнения для комбинации уровней 2
от g1
и уровни lo
от g2
перекрывается, и поэтому является серым. И наоборот, другие интервалы сравнения являются красными, что указывает на значительное различие.
y
- Выборочные данныеВыборочные данные, заданная как числовой вектор.
Типы данных: single
| double
group
- Сгруппированные переменныеСгруппированные переменные, т.е. факторов и уровней факторов наблюдений в y
, заданный как массив ячеек. Каждая из камер в group
содержит список уровней факторов, идентифицирующих наблюдения в y
в отношении одного из факторов. Список внутри каждой камеры может быть категориальным массивом, числовым вектором, символьной матрицей, строковыми массивами или одноколоночным массивом ячеек векторов символов и должен иметь то же количество элементов, что и y
.
По умолчанию, anovan
рассматривает все сгруппированные переменные как фиксированные эффекты.
Например, в исследовании вы хотите исследовать эффекты пола, школы и метода обучения на успехи в учебе учащихся начальной школы, тогда можно задать сгруппированные переменные следующим образом.
Пример: {'Gender','School','Method'}
Типы данных: cell
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
'alpha',0.01,'model','interaction','sstype',2
задает anovan
вычислить 99% доверия границы и p-значения для основных эффектов и двухсторонних взаимодействий с помощью суммы квадратов типа II.'alpha'
- Уровень значимостиУровень значимости для доверительных границ, заданный как разделенная разделенными запятой парами, состоящая из 'alpha'
и скалярное значение в области значений от 0 до 1. Для значения α доверительный уровень равен 100 * (1-α)%.
Пример: 'alpha',0.01
соответствует 99% доверительных интервалов
Типы данных: single
| double
'continuous'
- Индикатор для непрерывных предикторовИндикатор для непрерывных предикторов, представляющий, какие сгруппированные переменные должны рассматриваться как непрерывные предикторы, а не как категориальные предикторы, заданные как разделенная разделенными запятой парами, состоящая из 'continuous'
и вектор индексов.
Например, если существуют три сгруппированные переменные, а вторая непрерывна, то можно задать следующим образом.
Пример: 'continuous',[2]
Типы данных: single
| double
'display'
- Индикатор для отображения таблицы ANOVA'on'
(по умолчанию) | 'off'
Индикатор для отображения таблицы ANOVA, заданный как разделенная разделенными запятой парами, состоящая из 'display'
и 'on'
или 'off'
. Когда 'display'
является 'off'
, anovan
возвращает только выходные аргументы и не отображает стандартную таблицу ANOVA как рисунок.
Пример: 'display','off'
'model'
- Тип модели'linear'
(по умолчанию) | 'interaction'
| 'full'
| целое значение | матрица членовТип модели, заданный как разделенная разделенными запятой парами, состоящая из 'model'
и одно из следующих:
'linear'
- Значение по умолчанию 'linear'
модель вычисляет только p -значения для нулевых гипотез на N основных эффектах.
'interaction'
- The 'interaction'
модель вычисляет p значения для нулевых гипотез на N основных эффектах и двухфакторные взаимодействия.
'full'
- The 'full'
модель вычисляет p значения для нулевых гипотез на N основных эффектах и взаимодействиях на всех уровнях.
Целое число - Для целого значения k (k ≤ N) для типа модели, anovan
вычисляет все уровни взаимодействия через k-й уровень. Для примера значение 3 означает основные эффекты плюс двух- и трехфакторные взаимодействия. Значения k = 1 и k = 2 эквивалентны 'linear'
и 'interaction'
спецификации, соответственно. Значение k = N эквивалентно 'full'
спецификация.
Матрица терминов - матрица определений терминов, имеющих ту же форму, что и вход в x2fx
функция. Все записи должны быть 0
или 1
(без высших степеней).
Для более точного контроля над основными терминами и терминами взаимодействия, которые anovan
вычисляет, можно задать матрицу, содержащую по одной строке для каждого основного термина или термина взаимодействия, включаемого в модель ANOVA. Каждая строка задает один член, используя вектор с N нулями и таковыми. Приведенная ниже таблица иллюстрирует кодирование для 3-факторного ANOVA для факторов A, B и C.
Строка матрицы | Дисперсионный Анализ |
---|---|
| Основной термин A |
| Основной термин B |
| Основной термин C |
| Термин взаимодействия AB |
| Термин взаимодействия AC |
| Термин взаимодействия BC |
| Термин взаимодействия ABC |
Например, если существует три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1]
, затем anovan
тесты на основные эффекты B и C, и эффект взаимодействия BC, соответственно.
Простой способ сгенерировать матрицу терминов - это изменить terms
выход, который кодирует условия в текущей модели, используя формат, описанный выше. Если anovan
возвращает [0 1 0;0 0 1;0 1 1]
для terms
для примера и нет значимых BC взаимодействия, тогда можно пересчитать Дисперсионный Анализ как раз на основных эффектах B и C, указав [0 1 0;0 0 1]
для model
.
Пример: 'model',[0 1 0;0 0 1;0 1 1]
Пример: 'model','interaction'
Типы данных: char
| string
| single
| double
'nested'
- Вложенные отношенияВложенные отношения между сгруппированными переменными, заданные как разделенная разделенными запятой парами, состоящая из 'nested'
и матрица M 0 «s и 1» s, т.е. M (i, j) = 1, если i переменной вложена в переменные j.
Вы не можете задать вложенность в непрерывной переменной.
Например, если существуют две сгруппированные переменные District и School, где School вложен в District, то можно выразить эту связь следующим образом.
Пример: 'nested',[0 0;1 0]
Типы данных: single
| double
'random'
- Индикатор для случайных переменныхИндикатор для случайных переменных, представляющий, какие сгруппированные переменные являются случайными, задается как разделенная разделенными запятой парами, состоящая из 'random'
и вектор индексов. По умолчанию anovan
рассматривает все сгруппированные переменные как фиксированные.
anovan
рассматривает термин взаимодействия как случайный, если любая из переменных в термине взаимодействия является случайной.
Пример: 'random',[3]
Типы данных: single
| double
'sstype'
- Тип суммы квадратов'h'
Тип суммарных квадратов, заданный как разделенная разделенными запятой парами, состоящая из 'sstype'
и следующие:
1 - Тип I сумма квадратов. Уменьшение остаточной суммы квадратов, полученное путем добавления этого термина к подгонке, которая уже включает термины, перечисленные до нее.
2 - Тип II сумма квадратов. Уменьшение остаточной суммы квадратов, полученное путем добавления этого термина к модели, состоящей из всех других терминов, которые не содержат этого термина.
3 - III тип суммы квадратов. Уменьшение остаточной суммы квадратов, полученное путем добавления этого термина к модели, содержащей все другие условия, но с их эффектами, ограниченными для подчинения обычным «сигма-ограничениям», которые делают модели оцениваемыми.
'h'
- Иерархическая модель. Аналогично типу 2, но с непрерывными, а также категориальными факторами, используемыми для определения иерархии терминов.
Сумма квадратов для любого члена определяется путем сравнения двух моделей. Для модели, содержащей основные эффекты, но без взаимодействий, значение sstype
влияет на расчеты только на несбалансированные данные.
Предположим, что вы подбираете модель с двумя факторами и их взаимодействием, и условия появляются в A порядка точности, B, AB. Пусть R (·) представляет остаточную сумму квадратов для модели. Итак, R (A, B, AB) - остаточная сумма квадратов, подгоняющая целую модель, R (A) - остаточная сумма квадратов, подгоняющая основной эффект только A, а R (1) - остаточная сумма квадратов, подгоняющая только среднее. Три типа квадратов :
Термин | Тип 1 Сумма квадратов | Тип 2 Сумма квадратов | Тип 3 Сумма квадратов |
---|---|---|---|
A | R (1) – R (<reservedrangesplaceholder0>) | R (<reservedrangesplaceholder3>) – R (A, B) | R (B, AB) – R (A, B, AB) |
B | R (<reservedrangesplaceholder3>) – R (A, B) | R (<reservedrangesplaceholder3>) – R (A, B) | R (A, AB) – R (A, B, AB) |
AB | R (A, B) – R (A, B, AB) | R (A, B) – R (A, B, AB) | R (A, B) – R (A, B, AB) |
Модели для суммы квадратов типа 3 имеют введенные сигма-ограничения. Это означает, для примера, что в подбор кривой R (B, AB) массив AB эффектов ограничивается суммой, чтобы 0 больше A для каждого значения B и больше B для каждого значения A.
Пример: 'sstype','h'
Типы данных: single
| double
| char
| string
'varnames'
- Имена переменных группировкиX1,X2,...,XN
(по умолчанию) | символьную матрицу | строковые массивы | массив ячеек из векторов символовИмена сгруппированных переменных, заданные как разделяющая запятые пара, состоящая из 'varnames'
и матрицу символа, строковые массивы или массив ячеек векторов символов.
Пример: 'varnames',{'Gender','City'}
Типы данных: char
| string
| cell
p
- p -значенияp -значения, возвращается как вектор.
Выходные векторные p
содержит p -значения для нулевых гипотез об N основных эффектах и любых заданных терминах взаимодействия. Элементный p(1)
содержит p -value для нулевых гипотез, что выборки на всех уровнях факторных A взяты из одного и того же населения; элемент p(2)
содержит p -value для нулевых гипотез, что выборки на всех уровнях факторных B взяты из одного и того же населения; и так далее.
Например, если существует три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1]
, затем вектор выхода p
содержит p -значения для нулевых гипотез об основных эффектах B и C и BC взаимодействия, соответственно.
Достаточно маленькое значение p, соответствующее фактору, предполагает, что, по меньшей мере, одно среднее значение группы значительно отличается от другого средства группы; то есть существует основной эффект из-за этого фактора. Обычно объявлять результат значимым, если значение p меньше 0,05 или 0,01.
tbl
- таблица ANOVAДисперсионный Анализ, возвращенная как массив ячеек. Таблица ANOVA имеет семь столбцов:
Имя столбца | Определение |
---|---|
source | Источник изменчивости. |
SS | Сумма квадратов по каждому источнику. |
df | Степени свободы, связанные с каждым источником. |
MS | Средние квадраты для каждого источника, что является отношением SS/df . |
Singular? | Индикация того, является ли термин сингулярным. |
F | F -статистический, который является отношением средних квадратов. |
Prob>F | p -values, которая является вероятностью того, что F -statistic может взять значение, больше вычисленного тестово-статистического значения. anovan выводит эти вероятности из cdf F -распределения. |
Таблица ANOVA также содержит следующие столбцы, если хотя бы одна из сгруппированных переменных задана как случайная с помощью аргумента пары "имя-значение" random
:
Имя столбца | Определение |
---|---|
Type | Тип каждого источника; 'fixed' для фиксированного эффекта или 'random' для случайного эффекта. |
Expected MS | Текстовое представление ожидаемого значения для среднего квадрата. Q(source) представляет квадратичную функцию source и V(source) представляет отклонение source . |
MS denom | Знаменатель F-статика. |
d.f. denom | Степени свободы для знаменателя F - статистическая величина. |
Denom. defn. | Представление текста знаменателя F -statistic. MS(source) представляет собой средний квадрат source . |
Var. est. | Оценка компонента отклонения. |
Var. lower bnd | Нижняя граница 95% доверительного интервала для оценки компонента отклонения. |
Var. upper bnd | Верхняя граница интервала 95% доверия для оценки отклонения компонента. |
stats
- СтатистикаСтатистика для использования в многократном сравнительном тесте с использованием multcompare
function, возвращается как структура.
anovan
оценивает гипотезу о том, что различные группы (уровни) фактора (или, в более общем смысле, термина) имеют одинаковый эффект против альтернативы, что они не все имеют одинаковый эффект. Иногда лучше выполнить тест, чтобы определить, какие пары уровней значительно отличаются, а какие нет. Используйте multcompare
функция для выполнения таких тестов путем подачи stats
структура как вход.
The stats
структура содержит поля, перечисленные ниже, в дополнение к ряду других полей, необходимых для проведения нескольких сравнений с помощью multcompare
функция:
Область | Описание |
---|---|
| Оценочные коэффициенты |
| Имя термина для каждого коэффициента |
| Матрица сгруппированной переменной значений для каждого члена |
| Невязки от подобранной модели |
The stats
структура также содержит следующие поля, если, по крайней мере, одна из сгруппированных переменных задана как случайная с помощью аргумента пары "имя-значение" random
:
Область | Описание |
---|---|
| Ожидаемые средние квадраты |
| Определение знаменателя |
| Имена случайных членов |
| Отклонение оценки компонентов (по одному на случайный член) |
| Доверительные интервалы для компонентов отклонения |
terms
- Основные условия и условия взаимодействияОсновной и условия взаимодействия, возвращенные как матрица. Условия закодированы в выходной матрице terms
использование того же формата, который описан выше для входных model
. Когда вы задаете model
сама в этом формате матрица вернулась в terms
идентичен.
[1] Данн, О. Дж., и В. А. Кларк. Прикладная статистика: анализ Отклонения и регрессия. Нью-Йорк: Уайли, 1974.
[2] Спокойной ночи, J.H. и F.M. Speed. Вычисление ожидаемых средних квадратов. Кэри, NC: SAS Institute, 1978.
[3] Себер, Г. А. Ф. и А. Дж. Ли. Линейный регрессионный анализ. 2nd ed. Hoboken, NJ: Wiley-Interscience, 2003.
anova1
| anova2
| fitrm
| multcompare
| ranova
У вас есть измененная версия этого примера. Вы хотите открыть этот пример с вашими правками?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.