Выбор признаков и преобразование функций с помощью приложения Classification Learner

Исследуйте функции на графике поля точек

В Classification Learner попробуйте идентифицировать предикторы, которые хорошо разделяют классы, построив графики различных пар предикторов на графике поля точек. График может помочь вам исследовать функции, которые нужно включить или исключить. Можно визуализировать обучающие данные и неправильно классифицированные точки на графике поля точек.

Перед обучением классификатора на графике поля точек отображаются данные. Если вы обучили классификатор, график поля точек показывает результаты предсказания модели. Перейдите к графическому изображению только данных путем выбора Data в элементах управления Plot.

Выберите функции для построения графиков с помощью X и Y списков под Predictors.
Ищите предикторы, которые хорошо разделяют классы. Для примера построение графика fisheriris данные, можно увидеть, что длина и ширина сепаля разделяют один из классов хорошо (setosa). Вам нужно построить график других предикторов, чтобы увидеть, можно ли разделить два других класса.
Показать или скрыть определенные классы можно используя флажки под Show.
Измените порядок размещения нанесенных классов, выбрав класс под Classes и нажав Move to Front.
Исследуйте более мелкие детали путем изменения масштаба и уменьшения масштаба и панорамирования по графику. Чтобы включить масштабирование или панорамирование, наведите указатель мыши на график поля точек и нажмите соответствующую кнопку на панели инструментов, которая находится над верхней частью справа от графика.
Если вы идентифицируете предикторы, которые не полезны для разделения классов, то попробуйте использовать Feature Selection, чтобы удалить их и обучить классификаторы, включая только наиболее полезные предикторы.

После обучения классификатора результаты графика поля точек показов моделирования предсказания. Можно показать или скрыть правильные или неправильные результаты и визуализировать результаты по классам. Смотрите Результаты Классификатора графиков.

Можно экспортировать созданные в приложении графики поля точек в рисунки. См. раздел Экспорт графиков в приложении Classification Learner.

Выберите функции для включения

В Classification Learner можно задать различные функции (или предикторы), которые будут включены в модель. Посмотрите, можно ли улучшить модели путем удаления функций с низкой прогностической степенью. Если набор данных является дорогим или трудным, вы можете предпочитать модель, которая работает удовлетворительно без некоторых предикторов.

На вкладке Classification Learner, в разделе Features, нажмите Feature Selection.
В диалоговом окне «Выбор признаков» снимите флажки для предикторов, которые необходимо исключить.
Совет
Можно закрыть диалоговое окно «Выбор признаков» или переместить его. Ваши варианты в диалоговом окне остаются.
Нажмите Train, чтобы обучить новую модель с помощью новых опций предиктора.
Наблюдайте новую модель на панели Models. На панели Current Model Summary отображается количество исключенных предикторов.
Чтобы проверить, какие предикторы включены в обученную модель, щелкните модель на панели Models и наблюдайте флажки в диалоговом окне Выбора признаков.
Можно попытаться улучшить модель, включив в модель различные функции.

Пример использования выбора признаков см. в разделе Train деревьев принятия решений с использованием приложения Classification Learner.

Преобразуйте функции с PCA в Classification Learner

Используйте анализ основного компонента (PCA), чтобы уменьшить размерность пространства предикторов. Уменьшение размерности может создать классификационные модели в Classification Learner, которые помогают предотвратить сверхподбор кривой. PCA линейно преобразует предикторы в порядок, чтобы удалить избыточные размерности, и генерирует новый набор переменных, называемых главными компонентами.

На вкладке Classification Learner, в разделе Features, выберите PCA.
В диалоговом окне Advanced PCA Options установите флажок Enable PCA.
Можно закрыть диалоговое окно PCA или переместить его. Ваши варианты в диалоговом окне остаются.
При следующем клике Train, pca функция преобразует выбранные функции перед обучением классификатора.
По умолчанию PCA сохраняет только те компоненты, которые объясняют 95% отклонения. В диалоговом окне PCA можно изменить процент отклонений, чтобы объяснить, выбрав Explained variance значение. Более высокое значение рискует переоборудовать, в то время как более низкое значение рискует удалить полезные размерности.
Если необходимо вручную ограничить количество компонентов PCA, в списке Component reduction criterion выберите Specify number of components. Выберите Number of numeric components значение. Количество компонентов не может быть больше, чем количество числовых предикторов. PCA не применяется к категориальным предикторам.

Проверьте опции PCA для обученных моделей на панели Current Model Summary. Проверьте объясненные проценты отклонений, чтобы решить, нужно ли изменять количество компонентов. Для примера:

PCA is keeping enough components to explain 95% variance. 
After training, 2 components were kept. 
Explained variance per component (in order): 92.5%, 5.3%, 1.7%, 0.5%

Чтобы узнать больше о том, как Classification Learner применяет PCA к вашим данным, сгенерируйте код для вашего обученного классификатора. Для получения дополнительной информации о PCA смотрите pca функция.

Исследование функций на графике параллельных координат

Чтобы исследовать функции, которые нужно включить или исключить, используйте график параллельных координат. Можно визуализировать высокомерные данные на одном графике, чтобы увидеть 2-D шаблоны. График может помочь вам понять отношения между функциями и идентифицировать полезные предикторы для разделения классов. Можно визуализировать обучающие данные и неправильно классифицированные точки на графике параллельных координат. Когда вы строите графики результатов классификатора, неправильно классифицированные точки имеют штриховые линии.

На вкладке Classification Learner, в разделе Plots, нажмите Parallel Coordinates.
На графике перетащите метки такта X, чтобы переупорядочить предикторы. Изменение порядка может помочь вам идентифицировать предикторы, которые хорошо разделяют классы.
Чтобы задать предикторы для построения, используйте Predictors флажки. Хорошей практикой является построение нескольких предикторов за раз. Если ваши данные имеют много предикторов, график по умолчанию показывает первые 10 предикторов.
Если предикторы имеют значительно отличающиеся шкалы, масштабируйте данные для более легкой визуализации. Попробуйте другие опции в списке Scaling:
- None отображает необработанные данные по линейкам координат, которые имеют одинаковые минимальный и максимальный пределы.
- Range отображает необработанные данные по линейкам координат, которые имеют независимые минимальные и максимальные пределы.
- Z-Score отображает z-значения (со средним значением 0 и стандартным отклонением 1) вдоль каждой координатной линейки.
- Zero Mean отображает данные с центром, чтобы иметь среднее значение 0 вдоль каждой координатной линейки.
- Unit Variance отображает значения, масштабируемые стандартным отклонением вдоль каждой координатной линейки.
- L2 Norm отображает 2-нормы вдоль каждой координатной линейки.
Если вы идентифицируете предикторы, которые не полезны для разделения классов, используйте Feature Selection, чтобы удалить их и обучить классификаторы, включая только наиболее полезные предикторы.

График fisheriris данные показывают длину лепестка и ширину лепестка, функции лучше всего разделить классы.

Parallel coordinates plot displaying classifier results for the Fisher iris data

Можно экспортировать созданные в приложении параллельные графики координат в рисунки. См. раздел Экспорт графиков в приложении Classification Learner.

Документация