Цель мер дисперсии состоит в том, чтобы узнать, насколько распространенный значения данных находятся на числовой оси. Другой термин для этих статистических данных является мерами распространения.
Таблица дает имена функций и описания.
FunctionName | Описание |
---|---|
iqr | Межквартильный размах |
mad | Следует иметь в виду абсолютное отклонение |
moment | Центральный момент всех порядков |
range | Область значений |
std | Стандартное отклонение |
var | Дисперсия |
Область значений (различие между максимальными и минимальными значениями) является самой простой мерой распространения. Но если будет выброс в данных, это будет минимальное или максимальное значение. Таким образом область значений не устойчива к выбросам.
Стандартное отклонение и отклонение являются популярными мерами распространения, которые оптимальны для нормально распределенных выборок. Демонстрационное отклонение является минимальным отклонением несмещенным средством оценки (MVUE) нормального параметра σ2. Стандартное отклонение является квадратным корнем из отклонения и имеет желательное свойство того, чтобы быть в тех же модулях как данные. Таким образом, если данные исчисляются в метрах, стандартное отклонение исчисляется в метрах также. Отклонение находится в meters2, который больше затрудняет, чтобы интерпретировать.
Ни стандартное отклонение, ни отклонение не устойчивы к выбросам. Значение данных, которое является отдельным от тела данных, может увеличить значение статистики произвольно большой суммой.
Среднее абсолютное отклонение (MAD) также чувствительно к выбросам. Но MAD не перемещается вполне так же как стандартное отклонение или отклонение в ответ на неправильные данные.
Межквартильный размах (IQR) является различием между 75-й и 25-й процентилью данных. Поскольку только средние 50% данных влияют на эту меру, это устойчиво к выбросам.
В этом примере показано, как вычислить и сравнить меры дисперсии для выборочных данных, которые содержат один выброс.
Сгенерируйте выборочные данные, которые содержат одно значение выброса.
x = [ones(1,6),100]
x = 1×7
1 1 1 1 1 1 100
Вычислите межквартильный размах, имейте в виду абсолютное отклонение, область значений и стандартное отклонение выборочных данных.
stats = [iqr(x),mad(x),range(x),std(x)]
stats = 1×4
0 24.2449 99.0000 37.4185
Межквартильный размах (iqr
) различие между 75-й и 25-й процентилью выборочных данных и устойчиво к выбросам. Область значений (range
) различие между максимальными и минимальными значениями в данных и строго под влиянием присутствия выброса.
Оба среднее абсолютное отклонение (mad
) и стандартное отклонение (std
) чувствительны к выбросам. Однако среднее абсолютное отклонение менее чувствительно, чем стандартное отклонение.