Меры центральной тенденции определяют распределение данных по соответствующей шкале.
В следующей таблице перечислены функции, которые вычисляют меры центральной тенденции.
Имя функции | Описание |
---|---|
Среднее геометрическое | |
Среднее гармоническое | |
Арифметика среднего значения | |
50-й процентиль | |
Наиболее частое значение | |
Обрезанное среднее |
Среднее значение является простой и популярной оценкой местоположения. Если выборка данных происходит из нормального распределения, то среднее значение выборки также оптимально (объективный оценщик минимального отклонения (MVUE) µ).
К сожалению, выбросы, ошибки ввода данных или сбои существуют почти во всех реальных данных. Среднее значение выборки чувствительно к этим проблемам. Одно плохое значение данных может отодвинуть среднее значение от центра остальных данных на произвольно большое расстояние.
Среднее и обрезанное среднее являются двумя измерениями, которые устойчивы (устойчивы) к выбросам. Медиана является 50-м процентилем выборки, который лишь незначительно изменится, если вы добавите большое возмущение к любому значению. Идея обрезанного среднего состоит в том, чтобы игнорировать небольшой процент самых высоких и самых низких значений выборки при определении центра выборки.
Геометрическое среднее и гармоническое среднее, как и среднее значение, не устойчивы к выбросам. Они применяются, когда выборка распределен логнормально или сильно искривлен.
В этом примере показано, как вычислить и сравнить измерения местоположения для выборочных данных, которые содержат один выброс.
Сгенерируйте выборочные данные, которые содержат один выброс.
x = [ones(1,6),100]
x = 1×7
1 1 1 1 1 1 100
Вычислите среднее геометрическое, среднее гармоническое, среднее, медианное и обрезанное среднее для выборочных данных.
locate = [geomean(x) harmmean(x) mean(x) median(x)... trimmean(x,25)]
locate = 1×5
1.9307 1.1647 15.1429 1.0000 1.0000
Среднее (mean
) далеко не любое значение данных из-за влияния выбросов. Среднее геометрическое (geomean
) и среднее гармоническое (harmmean
) находятся под влиянием выбросов, но не так значительно. Медиана (median
) и обрезанное среднее (trimmean
) игнорировать значение выбросов и описать местоположение остальных значений данных.