N-побочный дисперсионный анализ
возвращает вектор p-значений для многоходовой (n-way) ANOVA с помощью дополнительных опций, заданных одним или несколькими p = anovan(y,group,Name,Value)Name,Value аргументы пары.
Например, можно указать, какая переменная предиктора является непрерывной, если она существует, или тип суммы квадратов для использования.
[ возвращает p,tbl,stats] = anovan(___)stats структура, которую можно использовать для выполнения нескольких сравнительных тестов, что позволяет определить, какие пары групповых средств значительно отличаются. Вы можете выполнить такой тест с помощью multcompare посредством предоставления функции stats структура в качестве входных данных.
Загрузите образцы данных.
y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2];
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};y - вектор ответа и g1, g2, и g3 - переменные группирования (факторы). Каждый фактор имеет два уровня, и каждое наблюдение в y идентифицируется комбинацией уровней факторов. Например, наблюдение y(1) связан с уровнем 1 фактора g1, уровень 'hi' фактора g2, и уровень 'may' фактора g3. Аналогичным образом, наблюдение y(6) связан с уровнем 2 фактора g1, уровень 'hi' фактора g2, и уровень 'june' фактора g3.
Проверьте, одинакова ли реакция для всех уровней факторов.
p = anovan(y,{g1,g2,g3})
p = 3×1
0.4174
0.0028
0.9140
В таблице ANOVA X1, X2, и X3 соответствуют факторам g1, g2, и g3соответственно. Значение p 0,4174 указывает, что средние отклики для уровней 1 и 2 фактора g1 существенно не отличаются. Аналогично, значение p 0,914 указывает, что средние ответы для уровней 'may' и 'june', коэффициента g3 существенно не отличаются. Однако значение p 0,0028 достаточно мало, чтобы сделать вывод, что средние ответы значительно отличаются для двух уровней, 'hi' и 'lo' фактора g2. По умолчанию anovan вычисляет значения p только для трех основных эффектов.
Протестируйте двухфакторные взаимодействия. На этот раз укажите имена переменных.
p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})
p = 6×1
0.0347
0.0048
0.2578
0.0158
0.1444
0.5000
Термины взаимодействия представлены g1*g2, g1*g3, и g2*g3 в таблице ANOVA. Первые три записи p являются значениями p для основных эффектов. Последние три записи являются значениями p для двунаправленных взаимодействий. Значение p 0,0158 указывает, что взаимодействие между g1 и g2 является значительным. Значения p 0,1444 и 0,5 указывают на то, что соответствующие взаимодействия не являются значимыми.
Загрузите образцы данных.
load carbigДанные имеют замеры на 406 автомобилях. Переменная org показывает, где были изготовлены автомобили и when показывает, когда в году машины были изготовлены.
Изучите, как зависит пробег от того, когда и где были сделаны автомобили. Также включите в модель двусторонние взаимодействия.
p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})
p = 3×1
0.0000
0.0000
0.3059
'model',2 аргумент пары имя-значение представляет двусторонние взаимодействия. P-значение для члена взаимодействия, 0,3059, не мало, что указывает на небольшое доказательство того, что влияние времени изготовления (mfg date) зависит от места изготовления автомобиля (origin). Однако основные эффекты от происхождения и даты изготовления значительны, оба значения p равны 0.
Загрузите образцы данных.
y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2];
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};y - вектор ответа и g1, g2, и g3 - переменные группирования (факторы). Каждый фактор имеет два уровня, и каждое наблюдение в y идентифицируется комбинацией уровней факторов. Например, наблюдение y(1) связан с уровнем 1 фактора g1, уровень 'hi' фактора g2, и уровень 'may' фактора g3. Аналогичным образом, наблюдение y(6) связан с уровнем 2 фактора g1, уровень 'hi' фактора g2, и уровень 'june' фактора g3.
Проверьте, одинакова ли реакция для всех уровней факторов. Также вычислите статистику, необходимую для нескольких тестов сравнения.
[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...
'varnames',{'g1','g2','g3'});
Значение p 0,2578 указывает, что средние ответы для уровней 'may' и 'june' фактора g3 существенно не отличаются. Значение p 0,0347 указывает, что среднее значение ответов для уровней 1 и 2 фактора g1 значительно отличаются друг от друга. Аналогично, значение p 0,0048 указывает, что средние ответы для уровней 'hi' и 'lo' фактора g2 значительно отличаются друг от друга.
Выполните несколько сравнительных тестов, чтобы выяснить, какие группы факторов g1 и g2 значительно отличаются друг от друга.
results = multcompare(stats,'Dimension',[1 2])
results = 6×6
1.0000 2.0000 -6.8604 -4.4000 -1.9396 0.0272
1.0000 3.0000 4.4896 6.9500 9.4104 0.0170
1.0000 4.0000 6.1396 8.6000 11.0604 0.0136
2.0000 3.0000 8.8896 11.3500 13.8104 0.0101
2.0000 4.0000 10.5396 13.0000 15.4604 0.0087
3.0000 4.0000 -0.8104 1.6500 4.1104 0.0737
multcompare сравнивает комбинации групп (уровней) двух переменных группировки, g1 и g2. В results матрица, число 1 соответствует комбинации уровня 1 из g1 и уровень hi из g2, число 2 соответствует комбинации уровня 2 из g1 и уровень hi из g2. Аналогично, число 3 соответствует комбинации уровня 1 из g1 и уровень lo из g2, и число 4 соответствует комбинации уровня 2 из g1 и уровень lo из g2. Последний столбец матрицы содержит p-значения.
Например, первая строка матрицы показывает, что комбинация уровня 1 из g1 и уровень hi из g2 имеет те же средние значения отклика, что и комбинация уровня 2 из g1 и уровень hi из g2. Значение p, соответствующее этому тесту, равно 0,0280, что указывает на то, что средние ответы значительно отличаются. Этот результат также можно увидеть на рисунке. Синяя полоса показывает интервал сравнения для среднего отклика для комбинации уровней 1 из g1 и уровень hi из g2. Красные полосы являются интервалами сравнения для среднего ответа для других комбинаций групп. Ни одна из красных полос не перекрывается с синей полосой, что означает среднюю реакцию для комбинации уровня 1 из g1 и уровень hi из g2 значительно отличается от среднего ответа для других комбинаций групп.
Можно протестировать другие группы, щелкнув соответствующий интервал сравнения для группы. Панель, на которую вы нажимаете, становится синей. Полосы для групп, которые значительно отличаются, красные. Полосы для групп, которые существенно не отличаются, серые. Например, если щелкнуть интервал сравнения для комбинации уровней 1 из g1 и уровень lo из g2, интервал сравнения для комбинации уровней 2 из g1 и уровень lo из g2 перекрывается и поэтому является серым. И наоборот, другие интервалы сравнения являются красными, что указывает на значительную разницу.
y - Образцы данныхОбразец данных, указанный как числовой вектор.
Типы данных: single | double
group - Группирование переменныхГруппирование переменных, т.е. факторов и уровней факторов наблюдений в y, задается как массив ячеек. Каждая из ячеек в group содержит список уровней коэффициентов, идентифицирующих наблюдения в y в отношении одного из факторов. Список в каждой ячейке может быть категориальным массивом, числовым вектором, символьной матрицей, строковым массивом или массивом символьных векторов, состоящим из одного столбца, и должен иметь то же количество элементов, что и y.
По умолчанию anovan обрабатывает все переменные группировки как фиксированные эффекты.
Например, в исследовании, в котором необходимо исследовать влияние пола, школы и метода обучения на успеваемость учащихся начальной школы, можно указать переменные группировки следующим образом.
Пример: {'Gender','School','Method'}
Типы данных: cell
Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.
'alpha',0.01,'model','interaction','sstype',2 определяет anovan для вычисления 99% доверительных границ и p-значений для основных эффектов и двусторонних взаимодействий с использованием суммы квадратов типа II.'alpha' - Уровень значимостиУровень значимости для доверительных границ, указанный как пара, разделенная запятыми, состоящая из'alpha' и скалярное значение в диапазоне от 0 до 1. Для значения α доверительный уровень равен 100 * (1-α)%.
Пример: 'alpha',0.01 соответствует 99% доверительным интервалам
Типы данных: single | double
'continuous' - Индикатор для непрерывных предикторовИндикатор для непрерывных предикторов, представляющий, какие группирующие переменные следует рассматривать как непрерывные предикторы, а не как категориальные предикторы, указанные как пара, разделенная запятыми, состоящая из 'continuous' и вектор индексов.
Например, если существует три переменные группирования, а вторая является непрерывной, то можно указать следующее.
Пример: 'continuous',[2]
Типы данных: single | double
'display' - Индикатор отображения таблицы ANOVA'on' (по умолчанию) | 'off'Индикатор для отображения таблицы ANOVA, указанной как разделенная запятыми пара, состоящая из 'display' и 'on' или 'off'. Когда 'display' является 'off', anovan возвращает только выходные аргументы и не отображает стандартную таблицу ANOVA в виде фигуры.
Пример: 'display','off'
'model' - Тип модели'linear' (по умолчанию) | 'interaction' | 'full' | целочисленное значение | матрица терминовТип модели, указанный как разделенная запятыми пара, состоящая из 'model' и одно из следующих:
'linear' - Значение по умолчанию 'linear' модель вычисляет только p-значения для нулевых гипотез для N основных эффектов.
'interaction'- 'interaction' модель вычисляет p-значения для нулевых гипотез на N основных эффектов и двухфакторных взаимодействий.
'full'- 'full' модель вычисляет p-значения для нулевых гипотез на N основных эффектов и взаимодействий на всех уровнях.
Целое число - для целочисленного значения k (k ≤ N) для типа модели, anovan вычисляет все уровни взаимодействия через k-ый уровень. Например, значение 3 означает основные эффекты плюс двух- и трехфакторные взаимодействия. Значения k = 1 и k = 2 эквивалентны 'linear' и 'interaction' спецификации, соответственно. Значение k = N эквивалентно значению 'full' спецификация.
Матрица терминов - матрица определений терминов, имеющая ту же форму, что и входные данные x2fx функция. Все записи должны быть 0 или 1 (нет высших полномочий).
Для более точного контроля над основными терминами и терминами взаимодействия, которые anovan вычисляет, можно указать матрицу, содержащую одну строку для каждого основного или интерактивного термина, который будет включен в модель ANOVA. Каждая строка определяет один член, используя вектор из N нулей и единиц. Таблица ниже иллюстрирует кодирование для 3-фактора ANOVA для факторов A, B и C.
| Строка матрицы | Срок действия ANOVA |
|---|---|
| Основной термин А |
| Основной термин B |
| Основной термин C |
| Термин взаимодействия AB |
| Термин взаимодействия AC |
| Термин взаимодействия BC |
| Термин взаимодействия ABC |
Например, если есть три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1], то anovan тесты на основные эффекты B и C и эффект взаимодействия BC соответственно.
Простым способом создания матрицы терминов является изменение terms , который кодирует термины в текущей модели с использованием описанного выше формата. Если anovan прибыль [0 1 0;0 0 1;0 1 1] для terms, например, и нет существенного взаимодействия BC, то можно пересчитать ANOVA только на основные эффекты B и C, указав [0 1 0;0 0 1] для model.
Пример: 'model',[0 1 0;0 0 1;0 1 1]
Пример: 'model','interaction'
Типы данных: char | string | single | double
'nested' - Вложенные отношенияВзаимосвязи вложенности между переменными группирования, заданными как пара, разделенная запятыми, состоящая из 'nested' и матрицу М, равную 0 "s" и 1 "s, в которой M (i, j) = 1, если переменная i вложена в переменную j.
Невозможно указать вложенность в непрерывной переменной.
Например, если существуют две переменные группировки «Район» и «Школа», где «Школа» вложена в «Район», то можно выразить эту связь следующим образом.
Пример: 'nested',[0 0;1 0]
Типы данных: single | double
'random' - Показатель для случайных величинИндикатор для случайных величин, представляющий, какие группирующие переменные являются случайными, определяемый как пара, разделенная запятыми, состоящая из 'random' и вектор индексов. По умолчанию anovan обрабатывает все переменные группировки как фиксированные.
anovan обрабатывает член взаимодействия как случайный, если любая из переменных в элементе взаимодействия является случайной.
Пример: 'random',[3]
Типы данных: single | double
'sstype' - Тип суммы квадратов'h'Тип квадратов суммы, указанный как разделенная запятыми пара, состоящая из 'sstype' и следующее:
1 - сумма квадратов типа I. Уменьшение остаточной суммы квадратов, полученное добавлением этого термина к подгонке, которая уже включает в себя термины, перечисленные перед ним.
2 - Тип II сумма квадратов. Уменьшение остаточной суммы квадратов, полученное добавлением этого термина к модели, состоящей из всех других терминов, которые не содержат данного термина.
3 - тип III сумма квадратов. Уменьшение остаточной суммы квадратов, полученное добавлением этого термина к модели, содержащей все другие термины, но с их эффектами, ограниченными для подчинения обычным «ограничениям сигмы», которые делают модели оцениваемыми.
'h' - Иерархическая модель. Аналогичен типу 2, но с непрерывными, а также категориальными факторами, используемыми для определения иерархии терминов.
Сумма квадратов для любого члена определяется путем сравнения двух моделей. Для модели, содержащей основные эффекты, но без взаимодействий, значение sstype влияет на вычисления только на несбалансированные данные.
Предположим, что вы подгоняете модель с двумя факторами и их взаимодействием, и термины появляются в порядке A, B, AB. Пусть R (·) представляет остаточную сумму квадратов для модели. Так, R (A, B, AB) - остаточная сумма квадратов, подходящая для всей модели, R (A) - остаточная сумма квадратов, подходящая только для основного эффекта A, и R (1) - остаточная сумма квадратов, подходящая только для среднего. Три суммы типов квадратов следующие :
| Термин | Тип 1 Сумма квадратов | Тип 2 Сумма квадратов | Тип 3 Сумма квадратов |
|---|---|---|---|
A | R (1) - R (A) | R (B) - R (A, B) | R (B, AB) - R (A, B, AB) |
B | R (A) - R (A, B) | R (A) - R (A, B) | R (A, AB) - R (A, B, AB) |
AB | R (A, B) - R (A, B, AB) | R (A, B) - R (A, B, AB) | R (A, B) - R (A, B, AB) |
Модели для суммы квадратов типа 3 имеют ограничения сигма. Это означает, например, что при подгонке R (B, AB) массив эффектов AB ограничен суммой 0 над A для каждого значения B и над B для каждого значения A.
Пример: 'sstype','h'
Типы данных: single | double | char | string
'varnames' - Имена переменных группировкиX1,X2,...,XN (по умолчанию) | матрица символов | массив строк | массив ячеек векторов символовИмена переменных группирования, указанных как разделяющая запятую пара, состоящая из 'varnames' и символьную матрицу, строковый массив или массив ячеек из символьных векторов.
Пример: 'varnames',{'Gender','City'}
Типы данных: char | string | cell
p - p-значенияp-значения, возвращаемые в виде вектора.
Выходной вектор p содержит p-значения для нулевых гипотез по N основным эффектам и любым указанным условиям взаимодействия. Элемент p(1) содержит p-значение для нулевых гипотез, что выборки на всех уровнях фактора А взяты из одной и той же совокупности; элемент p(2) содержит p-значение для нулевых гипотез, что выборки на всех уровнях фактора B взяты из одной и той же популяции; и так далее.
Например, если есть три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1], то выходной вектор p содержит p-значения для нулевых гипотез о главных эффектах B и C и эффекте взаимодействия BC соответственно.
Достаточно малое значение p, соответствующее коэффициенту, предполагает, что по меньшей мере одно среднее значение группы значительно отличается от другого среднего значения группы; то есть существует основной эффект, обусловленный этим фактором. Обычно объявляют результат значимым, если значение p меньше 0,05 или 0,01.
tbl - таблица ANOVAтаблица ANOVA, возвращенная в виде массива ячеек. Таблица ANOVA содержит семь столбцов:
| Имя столбца | Определение |
|---|---|
source | Источник изменчивости. |
SS | Сумма квадратов для каждого источника. |
df | Степени свободы, связанные с каждым источником. |
MS | Средние квадраты для каждого источника, которое является отношением SS/df. |
Singular? | Указание, является ли термин единственным. |
F | F-статистика, которая является отношением средних квадратов. |
Prob>F | P-значения, которые являются вероятностью того, что F-статистика может принять значение, большее, чем вычисленное значение test-statistic. anovan выводит эти вероятности из cdF-распределения. |
Таблица ANOVA также содержит следующие столбцы, если хотя бы одна из переменных группировки указана как случайная с использованием аргумента пары имя-значение random:
| Имя столбца | Определение |
|---|---|
Type | Тип каждого источника; 'fixed' для фиксированного эффекта или 'random' для случайного эффекта. |
Expected MS | Текстовое представление ожидаемого значения для среднего квадрата. Q(source) представляет квадратичную функцию source и V(source) представляет дисперсию source. |
MS denom | Знаменатель F-статистики. |
d.f. denom | Степени свободы знаменателя F-статистики. |
Denom. defn. | Текстовое представление знаменателя F-статистики. MS(source) представляет средний квадрат source. |
Var. est. | Оценка компонента дисперсии. |
Var. lower bnd | Нижняя граница 95% доверительного интервала для оценки компонента дисперсии. |
Var. upper bnd | Верхняя граница 95% доверительного интервала для оценки компонента дисперсии. |
stats - СтатистикаСтатистика для использования в множественном тесте сравнения с использованием multcompare функция, возвращенная как структура.
anovan оценивает гипотезу о том, что различные группы (уровни) фактора (или, в более общем смысле, термина) имеют одинаковый эффект, против альтернативы, что они не все имеют одинаковый эффект. Иногда предпочтительно выполнить тест, чтобы определить, какие пары уровней значительно отличаются, а какие нет. multcompare для выполнения таких испытаний, поставив stats структура в качестве входных данных.
stats структура содержит поля, перечисленные ниже, в дополнение к ряду других полей, необходимых для выполнения нескольких сравнений с использованием multcompare функция:
| Область | Описание |
|---|---|
| Оценочные коэффициенты |
| Наименование термина для каждого коэффициента |
| Матрица значений переменных группирования для каждого члена |
| Остатки из подогнанной модели |
stats структура также содержит следующие поля, если по крайней мере одна из переменных группировки указана как случайная с использованием аргумента пара имя-значение random:
| Область | Описание |
|---|---|
| Ожидаемые средние квадраты |
| Определение знаменателя |
| Названия случайных терминов |
| Оценки компонентов дисперсии (по одному на случайный член) |
| Доверительные интервалы для компонентов отклонений |
terms - Основные условия и условия взаимодействияОсновные и интерактивные термины, возвращаемые в виде матрицы. Термины кодируются в выходной матрице terms использование того же формата, который описан выше для ввода model. При указании model в этом формате матрица возвращается в terms идентичен.
[1] Данн, О. Джей и В.А. Кларк. Прикладная статистика: анализ дисперсии и регрессии. Нью-Йорк: Уайли, 1974.
[2] Спокойной ночи, J.H. и F.M. Speed. Вычисление ожидаемых средних квадратов. Кэри, NC: SAS Institute, 1978.
[3] Себер, Г. А. Ф. и А. Дж. Ли. Анализ линейной регрессии. 2-й ред. Хобокен, Нью-Джерси: Wiley-Interscience, 2003.
anova1 | anova2 | fitrm | multcompare | ranova
Имеется измененная версия этого примера. Открыть этот пример с помощью изменений?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.