Цель мер дисперсии состоит в том, чтобы выяснить, как распределены значения данных в номерной линии. Еще одним термином для этой статистики являются показатели распространения.
В таблице приведены имена функции и их описания.
Имя функции | Описание |
---|---|
iqr | Межквартильная область значений |
mad | Среднее абсолютное отклонение |
moment | Центральный момент всех порядков |
range | Область значений |
std | Стандартное отклонение |
var | Отклонение |
Область значений (различие между максимальным и минимальным значениями) является самой простой мерой распределения. Но если в данных есть выбросы, это будет минимальное или максимальное значение. Таким образом, область значений не является устойчивым к выбросам.
Стандартное отклонение и дисперсия являются популярными показателями распространения, которые оптимальны для нормально распределенных выборок. Отклонение выборки является объективной оценкой минимального отклонения (MVUE) нормального параметра2. Стандартное отклонение является квадратным корнем дисперсии и имеет желаемое свойство находиться в тех же модулях, что и данные. То есть, если данные в метрах, стандартное отклонение также в метрах. Отклонение в метрах2, что сложнее интерпретировать.
Ни стандартное отклонение, ни дисперсия не являются устойчивыми к выбросам. Значение данных, которое отделено от тела данных, может увеличить значение статистики на произвольно большую величину.
Среднее абсолютное отклонение (MAD) также чувствительно к выбросам. Но MAD движется не так сильно, как стандартное отклонение или дисперсия в ответ на плохие данные.
Межквартильная область значений (IQR) является различием между 75-м и 25-м процентилем данных. Поскольку только средняя 50% данных влияет на эту меру, она устойчива к выбросам.
Этот пример показывает, как вычислить и сравнить показатели дисперсии для выборочных данных, которые содержат один выброс.
Сгенерируйте выборочные данные, которые содержат одно значение выброса.
x = [ones(1,6),100]
x = 1×7
1 1 1 1 1 1 100
Вычислите межквартильную область значений, среднее абсолютное отклонение, область значений и стандартное отклонение выборочных данных.
stats = [iqr(x),mad(x),range(x),std(x)]
stats = 1×4
0 24.2449 99.0000 37.4185
Межквартильная область значений (iqr
) - различие между 75-м и 25-м процентилем выборочных данных, и устойчиво к выбросам. The области значений (range
) - различие между максимальным и минимальным значениями в данных, и сильно зависит от наличия выбросов.
Оба среднее абсолютное отклонение (mad
) и стандартное отклонение (std
) чувствительны к выбросам. Однако среднее абсолютное отклонение менее чувствительно, чем стандартное отклонение.