Непараметрические методы

Введение в непараметрические методы

Функции Statistics and Machine Learning Toolbox™ включают непараметрические версии одностороннего и двухстороннего дисперсионного анализа. В отличие от классических тестов, непараметрические тесты делают только умеренные предположения о данных и являются соответствующими, когда распределение данных ненормально. С другой стороны, они менее мощны, чем классические методы для нормально распределенных данных.

Обе из непараметрических функций, описанных здесь, возвратят структуру stats, которая может использоваться в качестве входа к функции multcompare для нескольких сравнений.

Краскэл-Уоллис Тест

Пример Выполняет Одностороннее использование АНОВОЙ односторонний дисперсионный анализ, чтобы определить, отличались ли количества бактерий молока от отгрузки до отгрузки. Односторонний анализ покоится при условии, что измерения независимы, и что у каждого есть нормальное распределение с общим отклонением и со средним значением, которое было постоянно в каждом столбце. Можно прийти к заключению, что средние значения столбца не были всеми одинаковыми. Следующий пример повторяет что анализ с помощью непараметрической процедуры.

Тест Краскэл-Уоллиса является непараметрической версией одностороннего дисперсионного анализа. Предположение позади этого теста - то, что измерения прибывают из непрерывного распределения, но не обязательно нормального распределения. Тест основан на дисперсионном анализе с помощью рангов значений данных, не самих значений данных. Выведите включает таблицу, подобную таблице АНОВОЙ и диаграмме.

Можно запустить этот тест можно следующим образом:

load hogg

p = kruskalwallis(hogg)
p =
    0.0020

Низкое значение p означает, что результаты испытаний Краскэл-Уоллиса соглашаются с односторонними результатами дисперсионного анализа.

Тест Фридмана

Выполните двухсторонний дисперсионный анализ использования Двухсторонней АНОВОЙ, чтобы изучить эффект модели автомобиля и фабрики на пробеге автомобиля. Пример тестирует, имеет ли любой из этих факторов значительный эффект на пробег, и существует ли взаимодействие между этими факторами. Заключение примера нет никакого взаимодействия, но что каждый отдельный фактор имеет значительный эффект. Следующий пример исследует, приводит ли непараметрический анализ к тому же заключению.

Тест Фридмана является непараметрическим тестом для данных, имеющих двухстороннее размещение (данные, сгруппированные двумя категориальными факторами). В отличие от двухстороннего дисперсионного анализа, тест Фридмана не обрабатывает эти два фактора симметрично, и это не тестирует на взаимодействие между ними. Вместо этого это - тест для того, отличаются ли столбцы после корректировки для возможных различий в строке. Тест основан на дисперсионном анализе с помощью рангов данных через категории фактора строки. Выведите включает таблицу, подобную таблице АНОВОЙ.

Можно запустить тест Фридмана можно следующим образом.

load mileage
p = friedman(mileage,3)
p =
  7.4659e-004

Вспомните, что классический дисперсионный анализ дал значение p, чтобы протестировать эффекты столбца, эффекты строки и эффекты взаимодействия. Это значение p для эффектов столбца. Или Используя это значение p или Используя значение p от АНОВОЙ (p <0.0001), вы приходите к заключению, что существуют значительные эффекты столбца.

В порядке протестировать на эффекты строки, необходимо перестроить данные, чтобы подкачать роли строк в столбцах. Для матрицы данных x без репликаций вы могли просто транспонировать данные и тип

p = friedman(x')

С тиражируемыми данными это немного более сложно. Простой путь состоит в том, чтобы преобразовать матрицу в 3D массив с первой размерностью, представляющей реплицирование, подкачав другие две размерности, и восстановив двумерную форму.

x = reshape(mileage, [3 2 3]);
x = permute(x,[1 3 2]);
x = reshape(x,[9 2])
x =
   33.3000   32.6000
   33.4000   32.5000
   32.9000   33.0000
   34.5000   33.4000
   34.8000   33.7000
   33.8000   33.9000
   37.4000   36.6000
   36.8000   37.0000
   37.6000   36.7000

friedman(x,3)
ans =
    0.0082

Снова, заключение подобно тому из классического дисперсионного анализа. И это значение p и то от АНОВОЙ (p = 0.0039) приводят вас приходить к заключению, что существуют значительные эффекты строки.

Вы не можете использовать тест Фридмана, чтобы протестировать на взаимодействия между факторами строки и столбца.