exponenta event banner

Несколько сравнений

Введение

Методы анализа дисперсии (ANOVA) проверяют, равен ли набор групповых средств (эффектов лечения) или нет. Отказ от нулевой гипотезы приводит к выводу, что не все групповые средства одинаковы. Однако этот результат не дает дополнительной информации о том, какие групповые средства различны.

Выполнение серии t-тестов для определения того, какие пары средств значительно отличаются, не рекомендуется. При выполнении нескольких t-тестов вероятность того, что средства окажутся значительными, и результаты существенных различий могут быть обусловлены большим количеством тестов. Эти t-тесты используют данные из одной и той же выборки, поэтому они не являются независимыми. Этот факт затрудняет количественную оценку уровня значимости для нескольких тестов.

Предположим, что в одном t-тесте вероятность того, что нулевая гипотеза (H0) отвергнута, когда она на самом деле верна, является небольшим значением, скажем 0,05. Предположим также, что вы проведете шесть независимых t-тестов. Если уровень значимости для каждого теста равен 0,05, то вероятность того, что тесты правильно не отклонят H0, когда H0 верно для каждого случая, равна (0,95) 6 = 0,735. И вероятность того, что один из тестов неверно отвергает нулевую гипотезу, равна 1 - 0,735 = 0,265, что намного выше 0,05.

Для компенсации нескольких тестов можно использовать несколько процедур сравнения. Функция Toolbox™ статистики и машинного обучения multcompare выполняет множественное попарное сравнение групповых средств или лечебных эффектов. Варианты являются честно значимым критерием разности Туки (опция по умолчанию), методом Бонферрони, процедурой Шеффе, методом наименее значимых различий Фишера (lsd) и подходом Данна и Сидака к t-тесту.

Для выполнения множественных сравнений групповых средств предоставьте структуру stats в качестве входных данных для multcompare. Вы можете получить stats из одной из следующих функций:

Несколько параметров процедуры сравнения для повторных измерений см. в разделе multcompare (RepeatedMeasuresModel).

Множественные сравнения с использованием односторонней ANOVA

Загрузите образцы данных.

load carsmall

MPG представляет собой мили на галлон для каждого автомобиля, и Cylinders представляет количество баллонов в каждом вагоне, 4, 6 или 8 баллонов.

Проверьте, отличается ли среднее число миль на галлон (мпг) в автомобилях с разным количеством цилиндров. Также вычислите статистику, необходимую для нескольких тестов сравнения.

[p,~,stats] = anova1(MPG,Cylinders,'off');
p
p = 4.4902e-24

Небольшое значение p около 0 является убедительным свидетельством того, что среднее значение миль на галлон значительно отличается в автомобилях с разным количеством цилиндров.

Провести несколько сравнительных испытаний с использованием метода Бонферрони для определения того, какое количество цилиндров влияет на эксплуатационные характеристики автомобилей.

[results,means] = multcompare(stats,'CType','bonferroni')

Figure Multiple comparison of means contains an axes. The axes with title Click on the group you want to test contains 7 objects of type line.

results = 3×6

    1.0000    2.0000    4.8605    7.9418   11.0230    0.0000
    1.0000    3.0000   12.6127   15.2337   17.8548    0.0000
    2.0000    3.0000    3.8940    7.2919   10.6899    0.0000

means = 3×2

   29.5300    0.6363
   21.5882    1.0913
   14.2963    0.8660

В results матрицы, 1, 2 и 3 соответствуют автомобилям с 4, 6 и 8 цилиндрами соответственно. Первые два столбца показывают, какие группы сравниваются. Например, первый ряд сравнивает автомобили с 4 и 6 цилиндрами. Четвертый столбец показывает среднюю разность mpg для сравниваемых групп. Третий и пятый столбцы показывают нижний и верхний пределы для 95% доверительного интервала для разницы в групповых значениях. В последнем столбце показаны значения p для тестов. Все значения p равны нулю, что указывает на то, что среднее значение mpg для всех групп различается для всех групп.

На рисунке синяя полоса представляет группу автомобилей с 4 цилиндрами. Красные полосы представляют другие группы. Ни один из красных интервалов сравнения для среднего mpg автомобилей не перекрывается, что означает, что среднее mpg значительно отличается для автомобилей, имеющих 4, 6 или 8 цилиндров.

Первый столбец means матрица имеет средние оценки mpg для каждой группы автомобилей. Второй столбец содержит стандартные ошибки оценок.

Множественные сравнения для трехсторонней ANOVA

Загрузите образцы данных.

y = [52.7 57.5 45.9 44.5 53.0 57.0 45.9 44.0]';
g1 = [1 2 1 2 1 2 1 2];
g2 = {'hi';'hi';'lo';'lo';'hi';'hi';'lo';'lo'};
g3 = {'may';'may';'may';'may';'june';'june';'june';'june'};

y - вектор ответа и g1, g2, и g3 - переменные группирования (факторы). Каждый фактор имеет два уровня, и каждое наблюдение в y идентифицируется комбинацией уровней факторов. Например, наблюдение y(1) связан с уровнем 1 фактора g1, уровень 'hi' фактора g2, и уровень 'may' фактора g3. Аналогичным образом, наблюдение y(6) связан с уровнем 2 фактора g1, уровень 'hi' фактора g2, и уровень 'june' фактора g3.

Проверьте, одинакова ли реакция для всех уровней факторов. Также вычислите статистику, необходимую для нескольких тестов сравнения.

[~,~,stats] = anovan(y,{g1 g2 g3},'model','interaction',...
    'varnames',{'g1','g2','g3'});

Figure N-Way ANOVA contains objects of type uicontrol.

Значение p 0,2578 указывает, что средние ответы для уровней 'may' и 'june' фактора g3 существенно не отличаются. Значение p 0,0347 указывает, что среднее значение ответов для уровней 1 и 2 фактора g1 значительно отличаются друг от друга. Аналогично, значение p 0,0048 указывает, что средние ответы для уровней 'hi' и 'lo' фактора g2 значительно отличаются друг от друга.

Выполните несколько сравнительных тестов, чтобы выяснить, какие группы факторов g1 и g2 значительно отличаются друг от друга.

results = multcompare(stats,'Dimension',[1 2])

Figure Multiple comparison of population marginal means contains an axes. The axes with title Click on the group you want to test contains 9 objects of type line.

results = 6×6

    1.0000    2.0000   -6.8604   -4.4000   -1.9396    0.0272
    1.0000    3.0000    4.4896    6.9500    9.4104    0.0170
    1.0000    4.0000    6.1396    8.6000   11.0604    0.0136
    2.0000    3.0000    8.8896   11.3500   13.8104    0.0101
    2.0000    4.0000   10.5396   13.0000   15.4604    0.0087
    3.0000    4.0000   -0.8104    1.6500    4.1104    0.0737

multcompare сравнивает комбинации групп (уровней) двух переменных группировки, g1 и g2. В results матрица, число 1 соответствует комбинации уровня 1 из g1 и уровень hi из g2, число 2 соответствует комбинации уровня 2 из g1 и уровень hi из g2. Аналогично, число 3 соответствует комбинации уровня 1 из g1 и уровень lo из g2, и число 4 соответствует комбинации уровня 2 из g1 и уровень lo из g2. Последний столбец матрицы содержит p-значения.

Например, первая строка матрицы показывает, что комбинация уровня 1 из g1 и уровень hi из g2 имеет те же средние значения отклика, что и комбинация уровня 2 из g1 и уровень hi из g2. Значение p, соответствующее этому тесту, равно 0,0280, что указывает на то, что средние ответы значительно отличаются. Этот результат также можно увидеть на рисунке. Синяя полоса показывает интервал сравнения для среднего отклика для комбинации уровней 1 из g1 и уровень hi из g2. Красные полосы являются интервалами сравнения для среднего ответа для других комбинаций групп. Ни одна из красных полос не перекрывается с синей полосой, что означает среднюю реакцию для комбинации уровня 1 из g1 и уровень hi из g2 значительно отличается от среднего ответа для других комбинаций групп.

Можно протестировать другие группы, щелкнув соответствующий интервал сравнения для группы. Панель, на которую вы нажимаете, становится синей. Полосы для групп, которые значительно отличаются, красные. Полосы для групп, которые существенно не отличаются, серые. Например, если щелкнуть интервал сравнения для комбинации уровней 1 из g1 и уровень lo из g2, интервал сравнения для комбинации уровней 2 из g1 и уровень lo из g2 перекрывается и поэтому является серым. И наоборот, другие интервалы сравнения являются красными, что указывает на значительную разницу.

Несколько процедур сравнения

Чтобы указать нужную процедуру сравнения multcompare для проведения использования 'CType' аргумент пары имя-значение. multcompare обеспечивает следующие процедуры:

Процедура Туки по честно значимым различиям

Вы можете указать процедуру честно значительных различий Tukey с помощью 'CType','Tukey-Kramer' или 'CType','hsd' аргумент пары имя-значение. Тест основан на изученном распределении диапазона. Отклонить H0:αi = αj, если

| t | = | y wet i y w j 'MSE (1ni + 1nj) > 12qα, k, N − k,

где , k, N − k - верхний 100 * (1 - α) -й процентиль изученного распределения диапазона с параметрами k и N - k степеней свободы. k - количество групп (обработок или предельных значений), а N - общее число наблюдений.

Честно значимая процедура различия Туки оптимальна для сбалансированной односторонней ANOVA и аналогичных процедур с равными размерами выборки. Было доказано, что он консервативен для односторонней ANOVA с различными размерами выборки. Согласно недоказанной гипотезе Туки-Крамера, она также точна для задач, где сравниваемые величины коррелируются, как при анализе ковариации с несбалансированными ковариатными значениями.

Метод Бонферрони

Можно указать метод Bonferroni с помощью 'CType','bonferroni' пара имя-значение. Этот метод использует критические значения из t-распределения Стьюдента после корректировки для компенсации множественных сравнений. Тест отклоняет H0:αi = αj на уровне значимости α/2 (k2), где k - число групп, если

| t | = | y wet i y se j 'MSE (1ni + 1nj) > tα2 (k2), N − k,

где N - общее число наблюдений, а k - число групп (предельное значение). Эта процедура консервативна, но обычно меньше, чем процедура Шеффе.

Подход Данна и Сидака

Можно указать подход Dunn & Sidák с помощью 'CType','dunn-sidak' аргумент пары имя-значение. В нем используются критические значения из t-распределения после корректировки на множественные сравнения, которая была предложена Данном и доказана Сидаком. Это испытание отклоняет H0:αi = αj, если

| t | = | y wet i y sw j 'MSE (1ni + 1nj) > t1 −/2, v,

где

start= 1 (1 α) 1 (k2)

k - число групп. Эта процедура аналогична, но менее консервативна, чем процедура Бонферрони.

Наименее значимая разница

Можно указать процедуру наименьшей разницы значимости с помощью 'CType','lsd' аргумент пары имя-значение. В этом тесте используется статистика теста

t = y i y jMSE (1ni + 1nj).

Отклоняет H0:αi = αj, если

| y i y w j | > tα2, N kMSE (1ni + 1nj) ︸ LSD.

Фишер предлагает защиту от множественных сравнений, выполняя ЛСД только тогда, когда нулевая гипотеза H0: α1 = α2 =... = αk отвергается F-тестом ANOVA. Даже в этом случае ЛСД может не отвергать ни одну из отдельных гипотез. Также возможно, что ANOVA не отвергает H0, даже когда есть различия между некоторыми групповыми средствами. Такое поведение происходит потому, что равенство остальных групповых средств может привести к тому, что статистика F-теста будет незначительной. Без каких-либо условий LSD не обеспечивает никакой защиты от проблемы множественного сравнения.

Процедура Шеффе

Можно указать процедуру Scheffe с помощью 'CType','scheffe' аргумент пары имя-значение. Критические значения получаются из распределения F. Тест отклоняет H0:αi = αj, если

| y i y w j 'MSE (1ni + 1nj) > (k − 1) Fk − 1, N − k, α

Эта процедура обеспечивает одновременный уровень достоверности для сравнения всех линейных комбинаций средств. Консервативен для сравнения простых различий пар.

Ссылки

[1] Милликен Г. А. и Д. Э. Джонсон. Анализ беспорядочных данных. Том I: Разработанные эксперименты. Бока Ратон, Флорида: Чепмен энд Холл/КПР Пресс, 1992.

[2] Нетер Дж., М. Х. Кутнер, С. Дж. Нахтсхайм, В. Вассерман. 4-е ред. Прикладные линейные статистические модели. Ирвин Пресс, 1996.

[3] Хохберг, Я. и А. К. Тамхане. Несколько процедур сравнения. Хобокен, Нью-Джерси: John Wiley & Sons, 1987.

См. также

| | | | | |

Связанные темы