Меры центральной тенденции

Меры центральной тенденции определяют местоположение распределения данных вдоль соответствующей шкалы.

В следующей таблице перечислены функции, которые вычисляют меры центральной тенденции.

FunctionName

Описание

geomean

Среднегеометрический

harmmean

Среднее гармоническое

mean

Среднее арифметическое

median

50-я процентиль

mode

Наиболее частое значение

trimmean

Обрезанное среднее значение

Среднее значение является простой и популярной оценкой местоположения. Если выборка данных прибывает из нормального распределения, то демонстрационное среднее значение также оптимально (минимальное отклонение несмещенное средство оценки (MVUE) µ).

К сожалению, выбросы, ошибки ввода данных или незначительные сбои существуют почти во всех действительных данных. Демонстрационное среднее значение чувствительно к этим проблемам. Одно значение неправильных данных может отодвинуть среднее значение от центра остальной части данных произвольно большим расстоянием.

Среднее и обрезанное среднее значение является двумя мерами, которые являются стойкие (устойчивый) к выбросам. Медиана является 50-й процентилью выборки, которая только изменится немного, если вы добавите большое возмущение в значение. Идея позади обрезанного среднего значения состоит в том, чтобы проигнорировать небольшой процент самых высоких и самых низких значений выборки при определении центра выборки.

Геометрическое среднее и среднее гармоническое, как среднее значение, не устойчиво к выбросам. Они полезны, когда выборка распределяется логарифмически нормальная или в большой степени скошенная.

Меры центральной тенденции

Этот пример показывает, как вычислить и сравнить меры местоположения для выборочных данных, которые содержат один выброс.

Сгенерируйте выборочные данные, которые содержат один выброс.

x = [ones(1,6),100]
x = 1×7

     1     1     1     1     1     1   100

Вычислите среднегеометрическое, среднее гармоническое, среднее значение, медиану и обрезанное среднее значение для выборочных данных.

locate = [geomean(x) harmmean(x) mean(x) median(x)... 
          trimmean(x,25)]
locate = 1×5

    1.9307    1.1647   15.1429    1.0000    1.0000

Среднее значение (mean) далеко от любого значения данных из-за влияния выброса. Геометрическое среднее значение (geomean) и среднее гармоническое (harmmean) под влиянием выброса, но не как значительно. Медиана (median) и обрезанное среднее значение (trimmean) игнорирует значение выброса и описывает местоположение остальной части значений данных.

Похожие темы