Меры дисперсии

Цель мер дисперсии состоит в том, чтобы выяснить, как распределены значения данных в номерной линии. Еще одним термином для этой статистики являются показатели распространения.

В таблице приведены имена функции и их описания.

Имя функции

Описание

iqr

Межквартильная область значений

mad

Среднее абсолютное отклонение

moment

Центральный момент всех порядков

range

Область значений

std

Стандартное отклонение

var

Отклонение

Область значений (различие между максимальным и минимальным значениями) является самой простой мерой распределения. Но если в данных есть выбросы, это будет минимальное или максимальное значение. Таким образом, область значений не является устойчивым к выбросам.

Стандартное отклонение и дисперсия являются популярными показателями распространения, которые оптимальны для нормально распределенных выборок. Отклонение выборки является объективной оценкой минимального отклонения (MVUE) нормального параметра2. Стандартное отклонение является квадратным корнем дисперсии и имеет желаемое свойство находиться в тех же модулях, что и данные. То есть, если данные в метрах, стандартное отклонение также в метрах. Отклонение в метрах2, что сложнее интерпретировать.

Ни стандартное отклонение, ни дисперсия не являются устойчивыми к выбросам. Значение данных, которое отделено от тела данных, может увеличить значение статистики на произвольно большую величину.

Среднее абсолютное отклонение (MAD) также чувствительно к выбросам. Но MAD движется не так сильно, как стандартное отклонение или дисперсия в ответ на плохие данные.

Межквартильная область значений (IQR) является различием между 75-м и 25-м процентилем данных. Поскольку только средняя 50% данных влияет на эту меру, она устойчива к выбросам.

Сравнение показателей дисперсии

Этот пример показывает, как вычислить и сравнить показатели дисперсии для выборочных данных, которые содержат один выброс.

Сгенерируйте выборочные данные, которые содержат одно значение выброса.

x = [ones(1,6),100]
x = 1×7

     1     1     1     1     1     1   100

Вычислите межквартильную область значений, среднее абсолютное отклонение, область значений и стандартное отклонение выборочных данных.

stats = [iqr(x),mad(x),range(x),std(x)]
stats = 1×4

         0   24.2449   99.0000   37.4185

Межквартильная область значений (iqr) - различие между 75-м и 25-м процентилем выборочных данных, и устойчиво к выбросам. The области значений (range) - различие между максимальным и минимальным значениями в данных, и сильно зависит от наличия выбросов.

Оба среднее абсолютное отклонение (mad) и стандартное отклонение (std) чувствительны к выбросам. Однако среднее абсолютное отклонение менее чувствительно, чем стандартное отклонение.

Похожие темы