exponenta event banner

Данные модели с помощью приложения Distribution Fitter

Приложение Distribution Fitter предоставляет визуальный интерактивный подход к подгонке одномерных распределений к данным.

Изучение распределения вероятностей в интерактивном режиме

Приложение Distribution Fitter можно использовать для интерактивного подбора вероятностных распределений к данным, импортированным из рабочей области MATLAB ®. Можно выбрать из 22 встроенных распределений вероятностей или создать собственное распределение. Приложение отображает подогнанное распределение по графикам эмпирических распределений, включая pdf, cdf, вероятностные графики и функции выживших. Данные подгонки, включая значения подгоняемых параметров, можно экспортировать в рабочую область для дальнейшего анализа.

Рабочий процесс приложения Distribution Fitter

Чтобы подогнать распределение вероятности к данным выборки:

  1. На панели инструментов MATLAB перейдите на вкладку «Приложения». В группе Математика, Статистика и оптимизация (Math, Statistics and Optimization) откройте приложение Распределитель (Distribution Fitter). distributionFitter.

  2. Импортируйте образцы данных или создайте вектор данных непосредственно в приложении. Кроме того, можно управлять наборами данных и выбирать тот из них, который требуется подогнать. См. раздел Создание наборов данных и управление ими.

  3. Создайте новую подгонку для данных. См. раздел Создание нового вписывания.

  4. Отображение результатов посадки. Можно выбрать отображение плотности (pdf), кумулятивной вероятности (cdf), квантиля (обратного cdf), графика вероятности (выберите одно из нескольких распределений), функции выжившего и кумулятивного риска. См. раздел Просмотр результатов.

  5. Можно создавать дополнительные посадки и управлять несколькими посадками из приложения. См. раздел Управление посадками.

  6. Оцените функции вероятности для аппроксимации. Можно оценить плотность (pdf), кумулятивную вероятность (cdf), квантиль (обратный cdf), функцию выжившего и кумулятивный риск. См. раздел Оценка посадок.

  7. Улучшение соответствия за счет исключения определенных данных. Можно указать границы для данных, которые требуется исключить, или можно исключить данные графически, используя график значений в образце данных. См. раздел Исключить данные.

  8. Сохраните текущий сеанс приложения Distribution Fitter, чтобы открыть его позже. См. раздел Сохранение и загрузка сеансов.

Создание наборов данных и управление ими

Чтобы открыть диалоговое окно «Данные», нажмите кнопку «Данные» в приложении Distribution Fitter.

Импорт данных

Создайте набор данных путем импорта вектора из рабочей области MATLAB с помощью панели Импортировать векторы рабочей области (Import workspace vectors).

  • Данные (Data) - в поле Данные (Data) выпадающий список содержит имена всех матриц и векторов, кроме матриц 1 на 1 (скаляров) в рабочей области MATLAB. Выберите массив, содержащий данные, которые требуется вписать. Фактические данные, которые вы импортируете, должны быть вектором. При выборе матрицы в поле Данные (Data) первый столбец матрицы импортируется по умолчанию. Чтобы выбрать другой столбец или строку матрицы, щелкните Выбрать столбец или строку. Матрица отображается в редакторе переменных. Можно выбрать строку или столбец, выделив его.

    Кроме того, в поле Данные можно ввести любое допустимое выражение MATLAB.

    При выборе вектора в поле Данные (Data) на панели Просмотр данных (Data preview) появляется гистограмма данных.

  • Цензура - если некоторые точки в наборе данных подвергаются цензуре, введите логический вектор того же размера, что и вектор данных, с указанием цензурированных записей данных. A 1 в векторе цензуры указывает, что соответствующая запись вектора данных подвергается цензуре. A 0 указывает, что запись не подвергается цензуре. При вводе матрицы можно выбрать столбец или строку, щелкнув Выбрать столбец или строку. Если у вас нет данных, подвергнутых цензуре, оставьте поле Цензура пустым.

  • Частота - введите вектор положительных целых чисел того же размера, что и вектор данных, чтобы указать частоту соответствующих записей вектора данных. Например, значение 7 в 15-й записи частотного вектора указывает, что имеется 7 точек данных, соответствующих значению в 15-й записи вектора данных. Если все записи вектора данных имеют частоту 1, оставьте поле Frequency пустым.

  • Имя набора данных - введите имя набора данных, импортируемого из рабочей области, например My data.

После ввода информации в предыдущие поля щелкните Создать набор данных, чтобы создать набор данных. My data.

Управление наборами данных

Просмотр и управление наборами данных, созданными с помощью панели Управление наборами данных. При создании набора данных его имя отображается в списке Наборы данных (Data sets). На следующем рисунке показана панель Управление наборами данных после создания набора данных My data.

Для каждого набора данных в списке Наборы данных можно:

  • Установите флажок «Печать», чтобы отобразить график данных в главном окне приложения Distribution Fitter. При создании нового набора данных по умолчанию выбирается «Печать». При снятии флажка «Печать» данные будут удалены из графика в главном окне. Можно указать тип графика, отображаемого в поле Тип отображения в главном окне.

  • Если выбрана опция График (Plot), можно также выбрать Границы (Bounds), чтобы отобразить границы доверительного интервала для графика в главном окне. Эти границы являются точечными доверительными границами вокруг эмпирических оценок этих функций. Границы отображаются только в том случае, если для параметра Тип отображения (Display Type) в главном окне задано одно из следующих значений.

    • Cumulative probability (CDF)

    • Survivor function

    • Cumulative hazard

Приложение Distribution Fitter не может отображать доверительные границы по плотности (PDF), квантиль (inverse CDF) или вероятностные графики. Снятие флажка Границы (Bounds) удаляет доверительные границы из графика в главном окне.

При выборе набора данных из списка можно воспользоваться следующими кнопками:

  • Вид (View) - отображение данных в таблице в новом окне.

  • Задать правила ячейки (Set Bin Rules) - определяет ячейки гистограммы, используемые на графике плотности (PDF).

  • Переименовать (Rename) - переименование набора данных.

  • Удалить - удалить набор данных.

Задать правила ячейки

Чтобы задать правила складских мест для гистограммы набора данных, щелкните Задать правила складских мест (Set Bin Rules), чтобы открыть диалоговое окно Задать правила ширины складских мест (Set Bin Width Rules).

Можно выбрать одно из следующих правил:

  • Правило Freedman-Diaconis (Freedman-Diaconis) - алгоритм, автоматически выбирающий значения ширины и расположения ячеек на основе размера выборки и разброса данных. Это правило, которое является правилом по умолчанию, подходит для многих видов данных.

  • Правило Скотта - алгоритм, предназначенный для данных, которые приблизительно нормальны. Алгоритм автоматически выбирает значения ширины и расположения ячеек.

  • Количество ячеек - введите количество ячеек. Все ячейки имеют одинаковую ширину.

  • Ячейки с центром на целых числах - указывает ячейки с центром на целых числах.

  • Ширина ячейки - введите ширину каждой ячейки. При выборе этой опции можно также выбрать:

    • Автоматическое размещение ячеек (Automatic bin placement) - размещает края ячеек на целых кратных ширине ячеек.

    • Граница ячейки в (Bin boundary at) - введите скаляр для задания границ ячеек. Граница каждой ячейки равна этому скаляру плюс целое число, кратное ширине ячейки.

Также можно:

  • Применить ко всем существующим наборам данных - применить правило ко всем наборам данных. В противном случае правило применяется только к набору данных, выбранному в данный момент в диалоговом окне «Данные».

  • Сохранить по умолчанию (Save as default) - применить текущее правило ко всем создаваемым новым наборам данных. Можно задать правила ширины ячейки по умолчанию, выбрав пункт Задать правила ячейки по умолчанию (Set Default Bin Rules) в меню Сервис (Tools) в главном окне.

Создание нового вписывания

Нажмите кнопку «Новое вписывание» в верхней части главного окна, чтобы открыть диалоговое окно «Новое вписывание». При создании набора данных My data, оно отображается в поле Данные.

Имя поляОписание
Имя посадкиВведите имя посадки.
Данные

В раскрывающемся списке выберите набор данных, в который требуется поместить распределение.

Распределение

Выберите тип распределения для размещения в раскрывающемся списке Распределение (Distribution).

В поле Распределение отображаются только распределения, которые применяются к значениям выбранного набора данных. Например, если данные содержат нулевые или отрицательные значения, положительные распределения не отображаются.

Можно указать параметрическое или непараметрическое распределение. При выборе параметрического распределения из выпадающего списка появляется описание его параметров. Distribution Fitter оценивает эти параметры в соответствии с набором данных. При выборе биномиального распределения или обобщенного крайнего распределения значений необходимо указать фиксированное значение для одного из параметров. Панель содержит текстовое поле, в котором можно указать этот параметр.

При выборе Nonparametric fitопции для посадки отображаются на панели, как описано в разделе Дополнительные опции непараметрических посадок.

Правило исключенияУкажите правило для исключения некоторых данных. Создайте правило исключения, щелкнув Исключить в приложении Распределитель. Дополнительные сведения см. в разделе Исключение данных.

Применить новое вписывание

Нажмите кнопку Применить (Apply), чтобы подогнать распределение. Для параметрического вписывания на панели Результаты (Results) отображаются значения расчетных параметров. Для непараметрического вписывания на панели Результаты (Results) отображается информация о вписывании.

При нажатии кнопки «Применить» приложение Distribution Fitter отображает график распространения и соответствующие данные.

Примечание

При нажатии кнопки «Применить» название диалогового окна изменяется на «Редактировать вписывание». Теперь можно внести изменения в только что созданный размер и снова нажать кнопку Применить (Apply), чтобы сохранить их. После закрытия диалогового окна «Редактирование вписывания» его можно повторно открыть в диалоговом окне «Диспетчер вписывания» в любое время для редактирования вписывания.

После применения посадки можно сохранить информацию в рабочей области с помощью объектов распределения вероятностей, щелкнув Сохранить в рабочей области (Save to workspace).

Доступные дистрибутивы

Все дистрибутивы, доступные в приложении Distribution Fitter, поддерживаются в другом месте в программе Statistics and Machine Learning Toolbox™. Вы можете использовать fitdist функция для соответствия любому из распределений, поддерживаемых приложением. Многие распределения также имеют специальные функции подгонки. Эти функции вычисляют большинство посадок в приложении Distribution Fitter и упоминаются в следующем списке. Другие посадки вычисляются с использованием функций, внутренних для приложения Distribution Fitter.

Не все перечисленные распределения доступны для всех наборов данных. Приложение Distribution Fitter определяет объем данных (неотрицательный, единичный интервал и т.д.) и отображает соответствующие распределения в выпадающем списке Distribution. Диапазоны данных распределения приведены в скобках в следующем списке.

Дополнительные варианты непараметрических посадок

При выборе Non-parametric в поле Распределение (Distribution) на непараметрической панели появится набор опций, как показано на следующем рисунке.

Опции непараметрических распределений:

  • Kernel - тип используемой функции ядра.

    • Normal

    • Box

    • Triangle

    • Epanechnikov

  • Полоса пропускания - полоса пропускания окна сглаживания ядра. Выберите значение по умолчанию «Авто» (Auto), оптимальное для оценки нормальных плотностей. После нажатия кнопки Применить (Apply) это значение появится на панели Результаты подгонки (Fit results). Выберите «Указать» и введите меньшее значение для отображения таких элементов, как несколько режимов или большее значение для сглаживания посадки.

  • Домен - допустимые значения x для плотности.

    • Неограниченная - Плотность простирается по всей реальной линии.

    • Положительное - плотность ограничена положительными значениями.

    • Указать (Specify) - введите нижнюю и верхнюю границы области плотности.

    При выборе опции Положительное (Positive) или Указать (Specify) непараметрическая посадка имеет нулевую вероятность вне указанного домена.

Показать результаты

В окне приложения Distribution Fitter отображаются графики:

  • Наборы данных, для которых в диалоговом окне «Данные» выбран параметр «Печать».

  • Посадки, для которых выбран параметр «Печать» в диалоговом окне «Диспетчер посадок».

  • Доверительные границы для:

    • Наборы данных, для которых в диалоговом окне «Данные» выбран параметр «Границы».

    • Посадки, для которых в диалоговом окне Диспетчер посадок (Fit Manager) выбран параметр Границы (Bounds).

Доступны следующие поля.

Тип отображения

Укажите тип графика для отображения с помощью поля Тип отображения в главном окне приложения. Каждый тип соответствует функции вероятности, например функции плотности вероятности. Можно выбрать один из следующих типов просмотра:

  • Density (PDF) - Отображение графика функции плотности вероятности (PDF) для соответствующего распределения. Главное окно отображает наборы данных с помощью вероятностной гистограммы, в которой высота каждого прямоугольника представляет собой долю точек данных, которые лежат в ячейке, деленную на ширину ячейки. Это делает сумму площадей прямоугольников равной 1.

  • Cumulative probability (CDF) - Отображение графика совокупной вероятности данных. В главном окне отображаются наборы данных с использованием кумулятивной функции шага вероятности. Высота каждого шага - это совокупная сумма высот прямоугольников в вероятностной гистограмме.

  • Quantile (inverse CDF) - отображение графика квантиля (обратного CDF).

  • Probability plot - Отображение вероятностного графика данных. Укажите тип распределения, используемый для построения графика вероятностей в поле Распределение. Это поле доступно только при выборе Probability plot. Варианты распределения:

    • Exponential

    • Extreme value

    • Logistic

    • Log-Logistic

    • Lognormal

    • Normal

    • Rayleigh

    • Weibull

    Можно также создать график вероятности для параметрического вписывания, созданного на панели «Новое вписывание» (New Fit). При создании этих посадок они добавляются в нижней части выпадающего списка Распределение.

  • Survivor function - отображение графика функции «выживший» данных.

  • Cumulative hazard - Отображение графика совокупного риска данных.

    Примечание

    Если выводимые на печать данные включают 0 или отрицательные значения, некоторые распределения недоступны.

Доверительные границы

Можно отображать доверительные границы для наборов данных и соответствия, если для параметра Тип отображения (Display Type) задано значение Cumulative probability (CDF), Survivor function, Cumulative hazard, или, только для посадок, Quantile (inverse CDF).

  • Для отображения границ набора данных выберите «Границы» рядом с набором данных на панели «Наборы данных» диалогового окна «Данные».

  • Чтобы отобразить границы для посадки, выберите «Границы» рядом с посадкой в диалоговом окне «Диспетчер посадок». Доверительные границы доступны не для всех типов посадки.

Чтобы задать доверительный уровень для границ, выберите Confidence Level в меню Вид (View) в главном окне и выберите опцию.

Управление посадками

Нажмите кнопку «Управление посадками», чтобы открыть диалоговое окно «Диспетчер посадок».

В таблице посадок отображается список создаваемых посадок со следующими опциями.

  • График (Plot) - отображает график посадки в главном окне приложения Распределительный фитинг (Distribution Fitter). При создании новой посадки по умолчанию выбирается График (Plot). Снятие флажка Печать (Plot) приводит к удалению посадки из графика в главном окне.

  • Границы (Bounds) - при выборе опции График (Plot) можно также выбрать Границы (Bounds) для отображения доверительных границ на графике. Границы отображаются, если в главном окне для параметра Тип отображения (Display Type) задано одно из следующих значений.

    • Cumulative probability (CDF)

    • Quantile (inverse CDF)

    • Survivor function

    • Cumulative hazard

    Приложение Distribution Fitter не может отображать доверительные границы по плотности (PDF) или вероятностные графики. Границы не поддерживаются для непараметрических посадок и некоторых параметрических посадок.

    При снятии флажка Границы (Bounds) доверительные интервалы удаляются из графика в главном окне.

    При выборе посадки в таблице посадок под таблицей активируются следующие кнопки:

    • Новая посадка (New Fit) - открытие окна Новая посадка (New Fit).

    • Копировать (Copy) - создание копии выбранного вписывания.

    • Правка (Edit) - открытие диалогового окна Правка посадки (Edit Fit) для редактирования посадки.

      Примечание

      В диалоговом окне «Редактирование вписывания» можно редактировать только выбранное в данный момент вписывание. Чтобы изменить другое вписывание, выберите его в таблице посадок и нажмите кнопку Править (Edit), чтобы открыть другое диалоговое окно Править вписывание (Edit Fit).

    • Сохранить в рабочей области (Save to workspace) - сохранение выбранного вписывания как объекта распределения.

    • Удалить (Delete) - удаление выбранного вписывания.

Оценка посадок

Используйте диалоговое окно Вычислить (Evaluate), чтобы оценить установленное распределение в любых выбранных точках данных. Чтобы открыть диалоговое окно, нажмите кнопку «Вычислить».

В диалоговом окне «Вычислить» выберите один из следующих элементов:

  • Подгонка (Fit) - отображение имен существующих посадок. Выберите одно или несколько посадок, которые требуется вычислить. Используя специфичные для платформы функциональные возможности, можно выбрать несколько посадок.

  • Функция (Function) - выберите тип вероятностной функции, которую необходимо вычислить для аппроксимации. Доступны следующие функции:

    • Density (PDF) - вычисляет функцию плотности вероятности.

    • Cumulative probability (CDF) - вычисляет кумулятивную функцию вероятности.

    • Quantile (inverse CDF) - вычисляет функцию квантиля (обратного CDF).

    • Survivor function - вычисляет функцию выжившего.

    • Cumulative hazard - вычисляет кумулятивную функцию опасности.

    • Hazard rate - Вычисляет уровень опасности.

  • При x = - введите вектор точек или имя переменной рабочей области, содержащей вектор точек, в котором требуется вычислить функцию распределения. При изменении функции на Quantile (inverse CDF)имя поля изменяется на At p =, и вводится вектор значений вероятности.

  • Вычислить доверительные границы (Compute confidence bounds) - установите этот флажок, чтобы вычислить доверительные границы для выбранных посадок. Флажок включен, только если для параметра Функция (Function) задано одно из следующих значений.

    • Cumulative probability (CDF)

    • Quantile (inverse CDF)

    • Survivor function

    • Cumulative hazard

    Приложение Distribution Fitter не может вычислять доверительные границы для непараметрических посадок и для некоторых параметрических посадок. В этих случаях возвращается NaN для границ.

  • Уровень (Level) - установка уровня для доверительных границ.

  • Функция графика (Plot function) - это поле используется для отображения графика функции распределения, вычисленного в точках, введенных в поле At x =, в новом окне.

    Примечание

    Настройки для функций Вычислить доверительные границы (Compute confidence bounds), Уровень (Level) и График (Plot) не влияют на графики, отображаемые в главном окне приложения Распределитель (Distribution Fitter). Эти настройки применяются только к графикам, созданным при нажатии функции График (Plot) в окне Вычислить (Evaluate).

Чтобы применить эти параметры оценки к выбранной посадке, нажмите кнопку «Применить». На следующем рисунке показаны результаты оценки кумулятивной функции плотности для аппроксимации My fit в точках вектора. 5:4:45.

В столбцах таблицы справа от панели Вписать (Fit) отображаются следующие значения.

  • X - записи вектора, введенные в поле At x =.

  • F (X) - соответствующие значения CDF на входах X.

  • LB - нижние границы доверительного интервала, если выбрать Вычислить доверительные границы.

  • UB - верхние границы доверительного интервала, если выбран параметр Вычислить доверительные границы.

Чтобы сохранить данные, отображаемые в таблице, в матрицу в рабочей области MATLAB, щелкните Экспорт в рабочую область (Export to Workspace).

Исключить данные

Чтобы исключить значения из посадки, откройте окно Исключить (Exclude), нажав кнопку Исключить (Exclude). В окне Исключить можно создать правила для исключения указанных значений данных. При создании нового вписывания в окне Создать вписывание (New Fit) эти правила можно использовать для исключения данных из вписывания.

Чтобы создать правило исключения, выполните следующие действия.

  1. Имя правила исключения - введите имя правила исключения.

  2. Исключить сечения (Exclude Sections) - задание границ для исключенных данных:

    • В раскрывающемся списке «Нижний предел: исключить данные» выберите <= или < и введите скалярное значение в поле справа. В зависимости от выбранного оператора приложение исключает из аппроксимации любые значения данных, которые меньше или равны скалярному значению или меньше скалярного значения соответственно.

    • В раскрывающемся списке «Верхний предел: исключить данные» выберите >= или > и введите скалярное значение в поле справа. В зависимости от выбранного оператора приложение исключает из аппроксимации любые значения данных, которые больше или равны скалярному значению или больше скалярного значения соответственно.

    ИЛИ

    Нажмите кнопку Исключить графически (Exclude Graphically), чтобы определить правило исключения путем отображения графика значений в наборе данных и выбора границ для исключенных данных. Например, при создании набора данных My data как описано в разделе Создание наборов данных и управление ими, выберите их в раскрывающемся списке рядом с пунктом Исключить графически, а затем нажмите кнопку Исключить графически. Приложение отображает значения в My data в новом окне.

    Чтобы задать нижний предел для границы исключенной области, щелкните Добавить нижний предел (Add Lower Limit). Приложение отображает вертикальную линию в левой части окна печати. Переместите линию в точку, в которой требуется установить нижний предел, как показано на следующем рисунке.

    Переместите вертикальную линию, чтобы изменить значение, отображаемое в поле Нижний предел: исключить данные в окне Исключить.

    Отображаемое значение соответствует координате X вертикальной линии.

    Аналогично, можно задать верхний предел границы исключенной области, щелкнув Добавить верхний предел (Add Upper Limit), а затем переместив вертикальную линию, которая появляется в правой части окна печати. После установки нижнего и верхнего пределов щелкните Закрыть (Close) и вернитесь в окно Исключить (Exclude).

  3. Создать правило исключения (Create Exclusion Rule) - после установки нижнего и верхнего пределов границы исключенных данных щелкните Создать правило исключения (Create Exclusion Rule), чтобы создать новое правило. Имя нового правила появится на панели Существующие правила исключения.

    Выбор правила исключения на панели Существующие правила исключения позволяет использовать следующие кнопки:

    • Копировать (Copy) - создает копию правила, которую затем можно изменить. Чтобы сохранить измененное правило под другим именем, щелкните Создать правило исключения.

    • Вид (View) - открывает новое окно, в котором можно увидеть точки данных, исключенные правилом. На следующем рисунке показан типичный пример.

      Закрашенные области на графике графически отображают, какие точки данных исключены. В таблице справа перечислены все точки данных. Закрашенные строки указывают исключенные точки.

    • Переименовать - переименовать правило.

    • Удалить - удалить правило.

    После определения правила исключения его можно использовать, когда распределение соответствует данным. Правило не исключает точки из отображения набора данных.

Сохранить и загрузить сеансы

Сохраните свою работу в текущем сеансе, а затем загрузите ее в следующем сеансе, чтобы продолжить работу там, где вы остановились.

Сохранить сеанс

Чтобы сохранить текущий сеанс, в меню Файл в главном окне выберите Save Session. Откроется диалоговое окно с запросом на ввод имени файла, напримерmy_session.dfit. Нажмите кнопку Сохранить (Save), чтобы сохранить следующие элементы, созданные в текущей сессии:

  • Наборы данных

  • Судороги

  • Правила исключения

  • Параметры печати

  • Правила ширины ячейки

Загрузить сеанс

Чтобы загрузить ранее сохраненный сеанс, в меню Файл (File) в главном окне выберите Load Session. Введите имя ранее сохраненного сеанса. Щелкните Открыть (Open), чтобы восстановить информацию из сохраненного сеанса в текущем сеансе.

Создание файла для подгонки и печати распределений

Используйте Generate Code для создания файла, который:

  • Подбор распределений в текущей сессии для любого вектора данных в рабочей области MATLAB.

  • Строит график данных и посадок.

После завершения текущей сессии можно использовать файл для создания графиков в стандартном окне фигуры MATLAB без повторного открытия приложения Distribution Fitter.

Например, при создании посадки, описанной в разделе «Создание новой посадки», выполните следующие действия.

  1. В меню «Файл» выберите Generate Code.

  2. В окне редактора MATLAB выберите «Файл» > «Сохранить как». Сохранить файл как normal_fit.m в папке на пути MATLAB.

Затем можно применить функцию normal_fit к любому вектору данных в рабочей области MATLAB. Например, следующие команды:

new_data = normrnd(4.1, 12.5, 100, 1);
newfit = normal_fit(new_data)
legend('New Data', 'My fit')

произвести newfit, соответствующее нормальное распределение данных. Команды также создают график данных и аппроксимации.

newfit = 

  NormalDistribution

  Normal distribution
       mu = 5.63857   [2.7555, 8.52163]
    sigma =   14.53   [12.7574, 16.8791]

Примечание

По умолчанию файл помечает данные в легенде с тем же именем, что и набор данных в приложении Distribution Fitter. Можно изменить метку с помощью legend , как показано в предыдущем примере.

См. также

Связанные темы