Непараметрическое и эмпирическое распределения вероятностей

Обзор

В некоторых ситуациях вы не можете точно описать выборку данных с помощью параметрического распределения. Вместо этого, функция плотности вероятностей (pdf) или совокупная функция распределения (cdf) должны быть оценены из данных. Statistics and Machine Learning Toolbox™ предоставляет несколько опций оценки pdf или cdf из выборочных данных.

Ядерное распределение

A ядерного распределения производит непараметрическую оценку плотности вероятностей, которая адаптируется к данным, а не выбирает плотность с конкретной параметрической формой и оценивает параметры. Это распределение определяется оценщиком плотности ядра, функцией сглаживания, которая определяет форму кривой, используемой для генерации PDF, и значением полосы пропускания, которое управляет плавностью полученной кривой плотности.

Подобно гистограмме, ядерное распределение строит функцию, чтобы представлять распределение вероятностей с помощью выборочных данных. Но в отличие от гистограммы, которая помещает значения в дискретные интервалы, ядерное распределение суммирует функции сглаживания компонента для каждого значения данных, чтобы получить плавную непрерывную кривую вероятностей. Следующий график показывает визуальное сравнение гистограммы и ядерных распределений, сгенерированных из тех же выборочных данных.

Гистограмма представляет распределение вероятностей путем установления интервалов и размещения каждого значения данных в соответствующем интервале. Из-за этого подхода подсчета интервалов гистограмма создает функцию дискретной плотности вероятностей. Это может быть непригодно для некоторых приложений, таких как генерация случайных чисел из подобранного распределения.

В качестве альтернативы ядерное распределение создает функцию плотности вероятностей (pdf), создавая индивидуальную кривую плотности вероятностей для каждого значения данных, затем суммируя сглаженные кривые. Этот подход создает одну плавную непрерывную функцию плотности вероятностей для набора данных.

Для получения дополнительной общей информации о дистрибутивах ядерных распределений Раздел «Ядерное распределение». Для получения информации о том, как работать с ядерным распределением, смотрите Using KernelDistribution Objects и ksdensity.

Эмпирическая кумулятивная функция распределения

Эмпирическая кумулятивная функция распределения (ecdf) оценивает cdf случайной переменной путем присвоения равной вероятности каждому наблюдению в выборке. Из-за этого подхода ecdf является дискретной совокупной функцией распределения, которая создает точное соответствие между ecdf и распределением выборочных данных.

Следующий график показывает визуальное сравнение ecdf 20 случайных чисел, сгенерированных из стандартного нормального распределения, и теоретического cdf стандартного нормального распределения. Круги указывают значение ecdf, вычисленное в каждой точке выборочных данных. Штриховая линия, которая проходит через каждый круг, визуально представляет ecdf, хотя ecdf не является непрерывной функцией. Сплошная линия показывает теоретический cdf стандартного нормального распределения, из которого были взяты случайные числа в выборочных данных.

ecdf по форме похож на теоретический cdf, хотя и не является точным соответствием. Вместо этого ecdf является точным соответствием выборочным данным. ecdf является дискретной функцией и не является плавным, особенно в хвостах, где данные могут быть разреженными. Сглаживать распределение можно с помощью хвостов Парето, используя paretotails функция.

Для получения дополнительной информации и дополнительных опций синтаксиса см. ecdf. Чтобы создать непрерывную функцию на основе значений cdf, вычисленных из выборочных данных, см. Кусочное линейное распределение.

Кусочно-линейное распределение

Кусочно-линейное распределение оценивает общее cdf для выборочных данных путем вычисления значения cdf в каждой отдельной точке и затем линейно соединяя эти значения для формирования непрерывной кривой.

Следующий график показывает cdf для кусочно-линейного распределения на основе выборки измерений веса пациентов в больнице. Круги представляют каждую отдельную точку данных (измерение веса). Черная линия, которая проходит через каждую точку данных, представляет кусочно-линейное распределение cdf для выборочных данных.

Кусочно-линейное распределение линейно соединяет значения cdf, вычисленные в каждой точке выборочных данных, чтобы сформировать непрерывную кривую. Напротив, эмпирическая совокупная функция распределения, созданная с использованием ecdf функция создает дискретный cdf. Например, случайные числа, сгенерированные из ecdf, могут включать только x значения, содержащиеся в исходных выборочных данных. Случайные числа, сгенерированные из кусочно-линейного распределения, могут включать в себя любое x значение между нижними и верхними контурами выборочных данных.

Поскольку кусочно-линейное распределение cdf построено из значений, содержащихся в выборочных данных, полученная кривая часто не гладка, особенно в хвостах, где данные могут быть разреженными. Сглаживать распределение можно с помощью хвостов Парето, используя paretotails функция.

Для получения информации о том, как работать с кусочно-линейным распределением, смотрите Использование PiecewiseLinearDistribution Объекты.

Парето Хвосты

Хвосты Парето используют кусочно-линейный подход, чтобы улучшить подгонку непараметрического cdf путем сглаживания хвостов распределения. Можно подгонять ядерное распределение, эмпирический cdf или пользовательский оценщик к средним значениям данных, затем подгонки обобщенные кривые распределения Парето к хвостам. Этот метод особенно полезен, когда выборочные данные разрежены в хвостах.

Следующий график показывает эмпирический cdf (ecdf) выборки данных, содержащей 20 случайных чисел. Сплошная линия представляет ecdf, а штриховая линия представляет эмпирический cdf с хвостами Парето, подобранными к нижним и верхним 10 процентам данных. Круги обозначают контуры для нижнего и верхнего 10 процентов данных.

Подгонка хвостов Парето к нижним и верхним 10 процентам выборочных данных делает cdf более плавным в хвостах, где данные разрежены. Для получения дополнительной информации о работе с хвостами Парето смотрите paretotails.

Треугольное Распределение

Треугольное распределение обеспечивает упрощенное представление распределения вероятностей при наличии ограниченных выборочных данных. Это непрерывное распределение параметризовано нижним пределом, пиковым положением и верхним пределом. Эти точки линейно связаны, чтобы оценить PDF выборочных данных. В качестве пикового местоположения можно использовать среднее, медианное или режим данных.

Следующий график показывает треугольное распределение PDF случайной выборки из 10 целых чисел от 0 до 5. Нижний предел является наименьшим целым числом в выборочных данных, а верхний предел - самым большим целым числом. Пик для этого графика находится в режиме или наиболее часто встречающемся значении в выборочных данных.

Бизнес-приложения, такие как симуляции и управление проектами, иногда используют треугольное распределение для создания моделей при наличии ограниченных выборочных данных. Для получения дополнительной информации см. раздел «Треугольное распределение».

См. также

ecdf | ksdensity | paretotails

Документация