Функция действует, когда она четко разделяет группы данных с различными метками переменных условий. Diagnostic Feature Designer предоставляет различные опции функции, но наиболее эффективные функции зависят от ваших данных и систем и условий, которые представляют ваши данные.
Чтобы выполнить предварительную оценку эффективности функции, можно оценить гистограмму функции. График гистограммы визуализирует разделение между маркированными группами. Для этих интервалов гистограммы распределение данных и использует цвет для идентификации групп меток в каждом интервале. Можно настроить гистограмму, чтобы улучшить визуализацию и выделить информацию в интересующих вас функциях. Можно также просмотреть числовую информацию о разделении между распределениями групп.
Гистограммы позволяют вам получить раннее чувство функции эффективности. Чтобы выполнить более строгую количественную оценку с использованием специализированных статистических методов, используйте ранжирование, как описано в Rank Features in Explore Ensemble Data и Compare Features Using Diagnostic Feature Designer. Расчеты рейтинга признаков не зависят от вариантов визуализации, которые вы делаете во время гистограммного анализа.
Следующий рисунок показывает визуализацию разделения. Эти примеры имеют относительно небольшой размер выборки, что преувеличивает различия.
На обоих графиках код условия двух состояний faultCode
. Значение 0 (синий) указывает на исправную систему, а значение 1 (оранжевый) - на неисправную систему. Гистограммы представляют крест-фактор и куртоз Vibration
сигнал.
Гистограмма крест-фактора показывает, что:
Все значения функции здоровой системы попадают в область значений первого интервала.
Большая часть дефектных значений системы попадает в оставшиеся три интервала.
Первый интервал также содержит некоторые данные из неисправной системы, но количество мало относительно данных исправной системы.
В этом случае гистограмма указывает, что коэффициент крест- функция хорошо различает здоровое и дефектное поведение, но не полностью.
Напротив, гистограмма куртоза показывает, что:
Данные со значениями в области значений первого интервала всегда неисправны.
Данные в области значений других интервалов поступают как от здоровых, так и от неисправных групп. Состояние отказа неоднозначно в этих областях.
Из этих двух гистограмм можно сделать вывод, что функция крест-фактора более эффективен, чем функция куртоза.
Приложение предоставляет интерактивные инструменты для настройки гистограммы. Например, вы можете увеличить разрешение гистограммы путем изменения ширины интервала, изменения переменной условия, которая задает группы, или изменения нормализации, которую применяет гистограмма. Для получения дополнительной информации о настройке гистограмм в приложении, смотрите Сгенерировать и Настроить гистограммы функций.
Если ваша переменная условия имеет более двух состояний или классов, получившиеся гистограммы может быть труднее интерпретировать самостоятельно из-за дополнительных комбинаций цветов. Например, предположим, что ваш код отказа может представлять два независимых состояния отказа в дополнение к здоровому состоянию, fault1
и fault2
. Следующий рисунок показывает гистограммы, подобные предыдущим гистограммам, но соответствующие такой переменной условия для трех классов.
Получите дополнительную информацию об эффективности функции путем просмотра числовых расстояний по группам. Опция Show Group Distance предоставляет значение, KS statistic, для каждой комбинации классов переменных условий. Используя двухвыборочный критерий Колмогорова-Смирнова, статистика КС указывает, насколько хорошо разделены совокупные функции распределения распределений двух классов.
В следующей таблице показаны групповые расстояния, соответствующие предыдущим гистограммам.
Статистика KS указывает разделение между каждым соединением в пару faultCode
значения. Статистическое значение находится в областях значений от 0 до 1, где 0 не является разделением между распределениями, и 1 является полным разделением.
Для функции крест-фактора как с двухклассовым faultCode
, дифференциация между здоровыми fault0
и дефектные fault1
данные сильны, со статистикой KS 1. Дифференциация также сильна между fault1
и fault2
данные. Однако дифференциация между fault0
и fault2
данные относительно плохи.
Для функции куртоза дифференциация между парами во всех парах относительно плоха.
Для получения дополнительной информации о статистике KS см. kstest2
.
Чтобы сгенерировать набор гистограмм функций из таблицы функций:
Выберите таблицу функций в Feature Tables разделе браузера данных.
Щелкните значок Histogram в галерее графиков.
Чтобы оптимизировать визуализацию разделения, настройте гистограммы. Вкладка Histogram предоставляет параметры, которые позволяют вам изменить гистограмму для улучшения интерпретации.
По умолчанию приложение строит гистограммы для всех ваших функций и отображает их в обратно-алфавитном порядке. Если необходимо сосредоточиться на меньшем наборе функций, щелкните Select Features.
Можно сгруппировать данные в наборе гистограмм для любой импортированной переменной условия. Эта переменная условия может указывать на работоспособность системы. Переменная может также быть рабочим условием, таким как температура или режим машины. Чтобы выбрать переменную условия для группировки по коду цвета, выберите переменную из Group By.
Чтобы отобразить расстояние разделения групп или KS Statistic, которое обсуждалось в разделе «Интерпретировать гистограммы функций для многоклассовых переменных условия», нажмите Show Group Distance. Эта опция приводит таблицу, содержащую значение группового разделения для каждого соединения значений переменных условий. В окне выберите функцию, который необходимо изучить.
По умолчанию приложение определяет размер интервала автоматически. Переопределите автоматизацию, введя другое значение ширины интервала или выбрав альтернативный метод binning. Настройки интервала применяются ко всем гистограммам для таблицы функций.
Настройки интервала для ширины интервала, метода раскладывания и количества интервалов не являются независимыми. Алгоритм использует порядок приоритета, чтобы определить, что использовать:
Этот Binning Method является драйвером по умолчанию для ширины интервала.
Спецификация Bin Width переопределяет метод раскладывания.
Ширина интервала и независимая Bin Limits управляют количеством интервалов. Спецификация Number of Bins имеет эффект только, когда нет группировки данных.
По умолчанию Diagnostic Feature Designer использует алгоритм автоматического раскладывания, который возвращает интервалы с равномерной шириной интервала. Алгоритм выбирает настройки интервала, чтобы покрыть диапазон данных и показать базовую форму распределения. Чтобы изменить алгоритм раскладывания, выберите из меню Binning Method.
Для получения информации об алгоритмах раскладывания смотрите ‘BinMethod’
описание в histogram
.
Увеличьте разрешение данных путем определения ширины, которая меньше, чем то, что ‘auto’
Настройка предусматривает функцию, которую вы исследуете. Например, следующий рисунок повторяет более ранние гистограммы, показывающие разделение данных для двух значений кода отказа и двух функций. Для крест-фактора первый интервал смешал полезные и деградированные данные.
Ширина интервала для функции Коэффициент креста составляет 0,1. Если вы уменьшаете ширину интервала до 0,05, гистограмма изменяется как показано здесь.
Теперь данные о здоровом крест-факторе изолированы до первого интервала, а остальные интервалы содержат только нездоровые данные. Однако вы потеряли разрешение на гистограмме куртоза, потому что заданная ширина интервала применяется ко всем функциям.
Если вас интересуешь только фрагмент распределения функций, используйте Bin Limits, чтобы исключить данные за пределы интересующей области. Введите требуемые пределы в форму [lower upper]
. Этот выбор не влияет на статистическое вычисление KS в таблице групповых расстояний.
Гистограммы по умолчанию используют вероятность для оси Y с соответствующей областью значений от 0 до 1 для всех функций. Просмотр нескольких гистограмм в одной шкале облегчает визуальное сравнение. Выберите другие настройки оси из меню Normalization. Эти методы включают необработанные счетчики и статистические метрики, такие как CDF.
Diagnostic Feature Designer | histogram
| kstest2