Меры центральной тенденции определяют местоположение распределения данных вдоль соответствующей шкалы.
В следующей таблице перечислены функции, которые вычисляют меры центральной тенденции.
FunctionName | Описание |
---|---|
Среднегеометрический | |
Среднее гармоническое | |
Среднее арифметическое | |
50-я процентиль | |
Наиболее частое значение | |
Обрезанное среднее значение |
Среднее значение является простой и популярной оценкой местоположения. Если выборка данных прибывает из нормального распределения, то демонстрационное среднее значение также оптимально (минимальное отклонение несмещенное средство оценки (MVUE) µ).
К сожалению, выбросы, ошибки ввода данных или незначительные сбои существуют почти во всех действительных данных. Демонстрационное среднее значение чувствительно к этим проблемам. Одно значение неправильных данных может отодвинуть среднее значение от центра остальной части данных произвольно большим расстоянием.
Среднее и обрезанное среднее значение является двумя мерами, которые являются стойкие (устойчивый) к выбросам. Медиана является 50-й процентилью выборки, которая только изменится немного, если вы добавите большое возмущение в значение. Идея позади обрезанного среднего значения состоит в том, чтобы проигнорировать небольшой процент самых высоких и самых низких значений выборки при определении центра выборки.
Геометрическое среднее и среднее гармоническое, как среднее значение, не устойчиво к выбросам. Они полезны, когда выборка распределяется логарифмически нормальная или в большой степени скошенная.
Этот пример показывает, как вычислить и сравнить меры местоположения для выборочных данных, которые содержат один выброс.
Сгенерируйте выборочные данные, которые содержат один выброс.
x = [ones(1,6),100]
x = 1×7
1 1 1 1 1 1 100
Вычислите среднегеометрическое, среднее гармоническое, среднее значение, медиану и обрезанное среднее значение для выборочных данных.
locate = [geomean(x) harmmean(x) mean(x) median(x)... trimmean(x,25)]
locate = 1×5
1.9307 1.1647 15.1429 1.0000 1.0000
Среднее значение (mean
) далеко от любого значения данных из-за влияния выброса. Геометрическое среднее значение (geomean
) и среднее гармоническое (harmmean
) под влиянием выброса, но не как значительно. Медиана (median
) и обрезанное среднее значение (trimmean
) игнорирует значение выброса и описывает местоположение остальной части значений данных.