exponenta event banner

anovan

N-побочный дисперсионный анализ

Описание

пример

p = anovan(y,group) возвращает вектор из p-значений, по одному на член, для многоходового (n-way) анализа дисперсии (ANOVA) для проверки влияния нескольких факторов на среднее значение вектора y.

anovan также отображается рисунок, показывающий стандартную таблицу ANOVA.

пример

p = anovan(y,group,Name,Value) возвращает вектор p-значений для многоходовой (n-way) ANOVA с помощью дополнительных опций, заданных одним или несколькими Name,Value аргументы пары.

Например, можно указать, какая переменная предиктора является непрерывной, если она существует, или тип суммы квадратов для использования.

[p,tbl] = anovan(___) возвращает таблицу ANOVA (включая метки факторов) в массиве ячеек tbl для любого из входных аргументов, указанных в предыдущих синтаксисах. Копирование текстовой версии таблицы ANOVA в буфер обмена с помощью Copy Text в меню Правка.

пример

[p,tbl,stats] = anovan(___) возвращает stats структура, которую можно использовать для выполнения нескольких сравнительных тестов, что позволяет определить, какие пары групповых средств значительно отличаются. Вы можете выполнить такой тест с помощью multcompare посредством предоставления функции stats структура в качестве входных данных.

[p,tbl,stats,terms] = anovan(___) возвращает основной и интерактивный термины, используемые в вычислениях ANOVA в terms.

Примеры

свернуть все

Загрузите образцы данных.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2]; 
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'}; 
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y - вектор ответа и g1, g2, и g3 - переменные группирования (факторы). Каждый фактор имеет два уровня, и каждое наблюдение в y идентифицируется комбинацией уровней факторов. Например, наблюдение y(1) связан с уровнем 1 фактора g1, уровень 'hi' фактора g2, и уровень 'may' фактора g3. Аналогичным образом, наблюдение y(6) связан с уровнем 2 фактора g1, уровень 'hi' фактора g2, и уровень 'june' фактора g3.

Проверьте, одинакова ли реакция для всех уровней факторов.

p = anovan(y,{g1,g2,g3})

Figure N-Way ANOVA contains objects of type uicontrol.

p = 3×1

    0.4174
    0.0028
    0.9140

В таблице ANOVA X1, X2, и X3 соответствуют факторам g1, g2, и g3соответственно. Значение p 0,4174 указывает, что средние отклики для уровней 1 и 2 фактора g1 существенно не отличаются. Аналогично, значение p 0,914 указывает, что средние ответы для уровней 'may' и 'june', коэффициента g3 существенно не отличаются. Однако значение p 0,0028 достаточно мало, чтобы сделать вывод, что средние ответы значительно отличаются для двух уровней, 'hi' и 'lo' фактора g2. По умолчанию anovan вычисляет значения p только для трех основных эффектов.

Протестируйте двухфакторные взаимодействия. На этот раз укажите имена переменных.

p = anovan(y,{g1 g2 g3},'model','interaction','varnames',{'g1','g2','g3'})

Figure N-Way ANOVA contains objects of type uicontrol.

p = 6×1

    0.0347
    0.0048
    0.2578
    0.0158
    0.1444
    0.5000

Термины взаимодействия представлены g1*g2, g1*g3, и g2*g3 в таблице ANOVA. Первые три записи p являются значениями p для основных эффектов. Последние три записи являются значениями p для двунаправленных взаимодействий. Значение p 0,0158 указывает, что взаимодействие между g1 и g2 является значительным. Значения p 0,1444 и 0,5 указывают на то, что соответствующие взаимодействия не являются значимыми.

Загрузите образцы данных.

load carbig

Данные имеют замеры на 406 автомобилях. Переменная org показывает, где были изготовлены автомобили и when показывает, когда в году машины были изготовлены.

Изучите, как зависит пробег от того, когда и где были сделаны автомобили. Также включите в модель двусторонние взаимодействия.

p = anovan(MPG,{org when},'model',2,'varnames',{'origin','mfg date'})

Figure N-Way ANOVA contains objects of type uicontrol.

p = 3×1

    0.0000
    0.0000
    0.3059

'model',2 аргумент пары имя-значение представляет двусторонние взаимодействия. P-значение для члена взаимодействия, 0,3059, не мало, что указывает на небольшое доказательство того, что влияние времени изготовления (mfg date) зависит от места изготовления автомобиля (origin). Однако основные эффекты от происхождения и даты изготовления значительны, оба значения p равны 0.

Загрузите образцы данных.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2];
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y - вектор ответа и g1, g2, и g3 - переменные группирования (факторы). Каждый фактор имеет два уровня, и каждое наблюдение в y идентифицируется комбинацией уровней факторов. Например, наблюдение y(1) связан с уровнем 1 фактора g1, уровень 'hi' фактора g2, и уровень 'may' фактора g3. Аналогичным образом, наблюдение y(6) связан с уровнем 2 фактора g1, уровень 'hi' фактора g2, и уровень 'june' фактора g3.

Проверьте, одинакова ли реакция для всех уровней факторов. Также вычислите статистику, необходимую для нескольких тестов сравнения.

[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...
    'varnames',{'g1','g2','g3'});

Figure N-Way ANOVA contains objects of type uicontrol.

Значение p 0,2578 указывает, что средние ответы для уровней 'may' и 'june' фактора g3 существенно не отличаются. Значение p 0,0347 указывает, что среднее значение ответов для уровней 1 и 2 фактора g1 значительно отличаются друг от друга. Аналогично, значение p 0,0048 указывает, что средние ответы для уровней 'hi' и 'lo' фактора g2 значительно отличаются друг от друга.

Выполните несколько сравнительных тестов, чтобы выяснить, какие группы факторов g1 и g2 значительно отличаются друг от друга.

results = multcompare(stats,'Dimension',[1 2])

Figure Multiple comparison of population marginal means contains an axes. The axes with title Click on the group you want to test contains 9 objects of type line.

results = 6×6

    1.0000    2.0000   -6.8604   -4.4000   -1.9396    0.0272
    1.0000    3.0000    4.4896    6.9500    9.4104    0.0170
    1.0000    4.0000    6.1396    8.6000   11.0604    0.0136
    2.0000    3.0000    8.8896   11.3500   13.8104    0.0101
    2.0000    4.0000   10.5396   13.0000   15.4604    0.0087
    3.0000    4.0000   -0.8104    1.6500    4.1104    0.0737

multcompare сравнивает комбинации групп (уровней) двух переменных группировки, g1 и g2. В results матрица, число 1 соответствует комбинации уровня 1 из g1 и уровень hi из g2, число 2 соответствует комбинации уровня 2 из g1 и уровень hi из g2. Аналогично, число 3 соответствует комбинации уровня 1 из g1 и уровень lo из g2, и число 4 соответствует комбинации уровня 2 из g1 и уровень lo из g2. Последний столбец матрицы содержит p-значения.

Например, первая строка матрицы показывает, что комбинация уровня 1 из g1 и уровень hi из g2 имеет те же средние значения отклика, что и комбинация уровня 2 из g1 и уровень hi из g2. Значение p, соответствующее этому тесту, равно 0,0280, что указывает на то, что средние ответы значительно отличаются. Этот результат также можно увидеть на рисунке. Синяя полоса показывает интервал сравнения для среднего отклика для комбинации уровней 1 из g1 и уровень hi из g2. Красные полосы являются интервалами сравнения для среднего ответа для других комбинаций групп. Ни одна из красных полос не перекрывается с синей полосой, что означает среднюю реакцию для комбинации уровня 1 из g1 и уровень hi из g2 значительно отличается от среднего ответа для других комбинаций групп.

Можно протестировать другие группы, щелкнув соответствующий интервал сравнения для группы. Панель, на которую вы нажимаете, становится синей. Полосы для групп, которые значительно отличаются, красные. Полосы для групп, которые существенно не отличаются, серые. Например, если щелкнуть интервал сравнения для комбинации уровней 1 из g1 и уровень lo из g2, интервал сравнения для комбинации уровней 2 из g1 и уровень lo из g2 перекрывается и поэтому является серым. И наоборот, другие интервалы сравнения являются красными, что указывает на значительную разницу.

Входные аргументы

свернуть все

Образец данных, указанный как числовой вектор.

Типы данных: single | double

Группирование переменных, т.е. факторов и уровней факторов наблюдений в y, задается как массив ячеек. Каждая из ячеек в group содержит список уровней коэффициентов, идентифицирующих наблюдения в y в отношении одного из факторов. Список в каждой ячейке может быть категориальным массивом, числовым вектором, символьной матрицей, строковым массивом или массивом символьных векторов, состоящим из одного столбца, и должен иметь то же количество элементов, что и y.

y = [y1, y2, y3, y4, y5, , yN]  g1 = {'C', 'B', 'B', , 'D'} g2 = [12 131 ⋯,2] g3 = {'привет', 'середина', 'низко', 'середина', 'привет', , 'низко'}

По умолчанию anovan обрабатывает все переменные группировки как фиксированные эффекты.

Например, в исследовании, в котором необходимо исследовать влияние пола, школы и метода обучения на успеваемость учащихся начальной школы, можно указать переменные группировки следующим образом.

Пример: {'Gender','School','Method'}

Типы данных: cell

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'alpha',0.01,'model','interaction','sstype',2 определяет anovan для вычисления 99% доверительных границ и p-значений для основных эффектов и двусторонних взаимодействий с использованием суммы квадратов типа II.

Уровень значимости для доверительных границ, указанный как пара, разделенная запятыми, состоящая из'alpha' и скалярное значение в диапазоне от 0 до 1. Для значения α доверительный уровень равен 100 * (1-α)%.

Пример: 'alpha',0.01 соответствует 99% доверительным интервалам

Типы данных: single | double

Индикатор для непрерывных предикторов, представляющий, какие группирующие переменные следует рассматривать как непрерывные предикторы, а не как категориальные предикторы, указанные как пара, разделенная запятыми, состоящая из 'continuous' и вектор индексов.

Например, если существует три переменные группирования, а вторая является непрерывной, то можно указать следующее.

Пример: 'continuous',[2]

Типы данных: single | double

Индикатор для отображения таблицы ANOVA, указанной как разделенная запятыми пара, состоящая из 'display' и 'on' или 'off'. Когда 'display' является 'off', anovan возвращает только выходные аргументы и не отображает стандартную таблицу ANOVA в виде фигуры.

Пример: 'display','off'

Тип модели, указанный как разделенная запятыми пара, состоящая из 'model' и одно из следующих:

  • 'linear' - Значение по умолчанию 'linear' модель вычисляет только p-значения для нулевых гипотез для N основных эффектов.

  • 'interaction'- 'interaction' модель вычисляет p-значения для нулевых гипотез на N основных эффектов и (N2) двухфакторных взаимодействий.

  • 'full'- 'full' модель вычисляет p-значения для нулевых гипотез на N основных эффектов и взаимодействий на всех уровнях.

  • Целое число - для целочисленного значения k (kN) для типа модели, anovan вычисляет все уровни взаимодействия через k-ый уровень. Например, значение 3 означает основные эффекты плюс двух- и трехфакторные взаимодействия. Значения k = 1 и k = 2 эквивалентны 'linear' и 'interaction' спецификации, соответственно. Значение k = N эквивалентно значению 'full' спецификация.

  • Матрица терминов - матрица определений терминов, имеющая ту же форму, что и входные данные x2fx функция. Все записи должны быть 0 или 1 (нет высших полномочий).

    Для более точного контроля над основными терминами и терминами взаимодействия, которые anovan вычисляет, можно указать матрицу, содержащую одну строку для каждого основного или интерактивного термина, который будет включен в модель ANOVA. Каждая строка определяет один член, используя вектор из N нулей и единиц. Таблица ниже иллюстрирует кодирование для 3-фактора ANOVA для факторов A, B и C.

    Строка матрицыСрок действия ANOVA

    [1 0 0]

    Основной термин А

    [0 1 0]

    Основной термин B

    [0 0 1]

    Основной термин C

    [1 1 0]

    Термин взаимодействия AB

    [1 0 1]

    Термин взаимодействия AC

    [0 1 1]

    Термин взаимодействия BC

    [1 1 1]

    Термин взаимодействия ABC

    Например, если есть три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1], то anovan тесты на основные эффекты B и C и эффект взаимодействия BC соответственно.

    Простым способом создания матрицы терминов является изменение terms , который кодирует термины в текущей модели с использованием описанного выше формата. Если anovan прибыль [0 1 0;0 0 1;0 1 1] для terms, например, и нет существенного взаимодействия BC, то можно пересчитать ANOVA только на основные эффекты B и C, указав [0 1 0;0 0 1] для model.

Пример: 'model',[0 1 0;0 0 1;0 1 1]

Пример: 'model','interaction'

Типы данных: char | string | single | double

Взаимосвязи вложенности между переменными группирования, заданными как пара, разделенная запятыми, состоящая из 'nested' и матрицу М, равную 0 "s" и 1 "s, в которой M (i, j) = 1, если переменная i вложена в переменную j.

Невозможно указать вложенность в непрерывной переменной.

Например, если существуют две переменные группировки «Район» и «Школа», где «Школа» вложена в «Район», то можно выразить эту связь следующим образом.

Пример: 'nested',[0 0;1 0]

Типы данных: single | double

Индикатор для случайных величин, представляющий, какие группирующие переменные являются случайными, определяемый как пара, разделенная запятыми, состоящая из 'random' и вектор индексов. По умолчанию anovan обрабатывает все переменные группировки как фиксированные.

anovan обрабатывает член взаимодействия как случайный, если любая из переменных в элементе взаимодействия является случайной.

Пример: 'random',[3]

Типы данных: single | double

Тип квадратов суммы, указанный как разделенная запятыми пара, состоящая из 'sstype' и следующее:

  • 1 - сумма квадратов типа I. Уменьшение остаточной суммы квадратов, полученное добавлением этого термина к подгонке, которая уже включает в себя термины, перечисленные перед ним.

  • 2 - Тип II сумма квадратов. Уменьшение остаточной суммы квадратов, полученное добавлением этого термина к модели, состоящей из всех других терминов, которые не содержат данного термина.

  • 3 - тип III сумма квадратов. Уменьшение остаточной суммы квадратов, полученное добавлением этого термина к модели, содержащей все другие термины, но с их эффектами, ограниченными для подчинения обычным «ограничениям сигмы», которые делают модели оцениваемыми.

  • 'h' - Иерархическая модель. Аналогичен типу 2, но с непрерывными, а также категориальными факторами, используемыми для определения иерархии терминов.

Сумма квадратов для любого члена определяется путем сравнения двух моделей. Для модели, содержащей основные эффекты, но без взаимодействий, значение sstype влияет на вычисления только на несбалансированные данные.

Предположим, что вы подгоняете модель с двумя факторами и их взаимодействием, и термины появляются в порядке A, B, AB. Пусть R (·) представляет остаточную сумму квадратов для модели. Так, R (A, B, AB) - остаточная сумма квадратов, подходящая для всей модели, R (A) - остаточная сумма квадратов, подходящая только для основного эффекта A, и R (1) - остаточная сумма квадратов, подходящая только для среднего. Три суммы типов квадратов следующие :

ТерминТип 1 Сумма квадратовТип 2 Сумма квадратовТип 3 Сумма квадратов

A

R (1) - R (A)

R (B) - R (A, B)

R (B, AB) - R (A, B, AB)

B

R (A) - R (A, B)

R (A) - R (A, B)

R (A, AB) - R (A, B, AB)

AB

R (A, B) - R (A, B, AB)

R (A, B) - R (A, B, AB)

R (A, B) - R (A, B, AB)

Модели для суммы квадратов типа 3 имеют ограничения сигма. Это означает, например, что при подгонке R (B, AB) массив эффектов AB ограничен суммой 0 над A для каждого значения B и над B для каждого значения A.

Пример: 'sstype','h'

Типы данных: single | double | char | string

Имена переменных группирования, указанных как разделяющая запятую пара, состоящая из 'varnames' и символьную матрицу, строковый массив или массив ячеек из символьных векторов.

Пример: 'varnames',{'Gender','City'}

Типы данных: char | string | cell

Выходные аргументы

свернуть все

p-значения, возвращаемые в виде вектора.

Выходной вектор p содержит p-значения для нулевых гипотез по N основным эффектам и любым указанным условиям взаимодействия. Элемент p(1) содержит p-значение для нулевых гипотез, что выборки на всех уровнях фактора А взяты из одной и той же совокупности; элемент p(2) содержит p-значение для нулевых гипотез, что выборки на всех уровнях фактора B взяты из одной и той же популяции; и так далее.

Например, если есть три фактора A, B и C, и 'model',[0 1 0;0 0 1;0 1 1], то выходной вектор p содержит p-значения для нулевых гипотез о главных эффектах B и C и эффекте взаимодействия BC соответственно.

Достаточно малое значение p, соответствующее коэффициенту, предполагает, что по меньшей мере одно среднее значение группы значительно отличается от другого среднего значения группы; то есть существует основной эффект, обусловленный этим фактором. Обычно объявляют результат значимым, если значение p меньше 0,05 или 0,01.

таблица ANOVA, возвращенная в виде массива ячеек. Таблица ANOVA содержит семь столбцов:

Имя столбцаОпределение
sourceИсточник изменчивости.
SSСумма квадратов для каждого источника.
dfСтепени свободы, связанные с каждым источником.
MSСредние квадраты для каждого источника, которое является отношением SS/df.
Singular?Указание, является ли термин единственным.
FF-статистика, которая является отношением средних квадратов.
Prob>FP-значения, которые являются вероятностью того, что F-статистика может принять значение, большее, чем вычисленное значение test-statistic. anovan выводит эти вероятности из cdF-распределения.

Таблица ANOVA также содержит следующие столбцы, если хотя бы одна из переменных группировки указана как случайная с использованием аргумента пары имя-значение random:

Имя столбцаОпределение
TypeТип каждого источника; 'fixed' для фиксированного эффекта или 'random' для случайного эффекта.
Expected MSТекстовое представление ожидаемого значения для среднего квадрата. Q(source) представляет квадратичную функцию source и V(source) представляет дисперсию source.
MS denomЗнаменатель F-статистики.
d.f. denomСтепени свободы знаменателя F-статистики.
Denom. defn.Текстовое представление знаменателя F-статистики. MS(source) представляет средний квадрат source.
Var. est.Оценка компонента дисперсии.
Var. lower bndНижняя граница 95% доверительного интервала для оценки компонента дисперсии.
Var. upper bndВерхняя граница 95% доверительного интервала для оценки компонента дисперсии.

Статистика для использования в множественном тесте сравнения с использованием multcompare функция, возвращенная как структура.

anovan оценивает гипотезу о том, что различные группы (уровни) фактора (или, в более общем смысле, термина) имеют одинаковый эффект, против альтернативы, что они не все имеют одинаковый эффект. Иногда предпочтительно выполнить тест, чтобы определить, какие пары уровней значительно отличаются, а какие нет. multcompare для выполнения таких испытаний, поставив stats структура в качестве входных данных.

stats структура содержит поля, перечисленные ниже, в дополнение к ряду других полей, необходимых для выполнения нескольких сравнений с использованием multcompare функция:

ОбластьОписание

coeffs

Оценочные коэффициенты

coeffnames

Наименование термина для каждого коэффициента

vars

Матрица значений переменных группирования для каждого члена

resid

Остатки из подогнанной модели

stats структура также содержит следующие поля, если по крайней мере одна из переменных группировки указана как случайная с использованием аргумента пара имя-значение random:

ОбластьОписание

ems

Ожидаемые средние квадраты

denom

Определение знаменателя

rtnames

Названия случайных терминов

varest

Оценки компонентов дисперсии (по одному на случайный член)

varci

Доверительные интервалы для компонентов отклонений

Основные и интерактивные термины, возвращаемые в виде матрицы. Термины кодируются в выходной матрице terms использование того же формата, который описан выше для ввода model. При указании model в этом формате матрица возвращается в terms идентичен.

Ссылки

[1] Данн, О. Джей и В.А. Кларк. Прикладная статистика: анализ дисперсии и регрессии. Нью-Йорк: Уайли, 1974.

[2] Спокойной ночи, J.H. и F.M. Speed. Вычисление ожидаемых средних квадратов. Кэри, NC: SAS Institute, 1978.

[3] Себер, Г. А. Ф. и А. Дж. Ли. Анализ линейной регрессии. 2-й ред. Хобокен, Нью-Джерси: Wiley-Interscience, 2003.

Представлен до R2006a