exponenta event banner

Выбор и преобразование функций с помощью приложения Classification Learner

Исследование элементов на графике рассеяния

В Classification Learner попробуйте определить предикторы, которые хорошо разделяют классы, построив графики различных пар предикторов на графике рассеяния. График может помочь исследовать элементы для включения или исключения. На графике рассеяния можно визуализировать обучающие данные и неправильно классифицированные точки.

Перед тренировкой классификатора на графике рассеяния отображаются данные. Если вы обучили классификатор, график рассеяния показывает результаты прогнозирования модели. Переключитесь на печать только данных, выбрав «Данные» в элементах управления «Печать».

  • Выберите элементы для печати с помощью списков X и Y в разделе Предикторы.

  • Ищите предикторы, которые хорошо разделяют классы. Например, печать fisheriris данные, вы можете видеть, что длина чашелистика и ширина чашелистика разделяют один из классов хорошо (setosa). Вам нужно построить график других предикторов, чтобы увидеть, можно ли разделить два других класса.

    Scatter plot of the Fisher iris data

  • Показать или скрыть определенные классы с помощью флажков в разделе Показать.

  • Измените порядок размещения классов на графике, выбрав класс в разделе «Классы» и нажав «Переместить на передний план».

  • Исследовать более тонкие детали, увеличивая масштаб и уменьшая масштаб и панорамирование по всему графику. Чтобы включить масштабирование или панорамирование, наведите курсор мыши на график рассеяния и нажмите соответствующую кнопку на панели инструментов, которая отображается над правой верхней частью графика.

  • Если вы определяете предикторы, которые не полезны для выделения классов, то попробуйте с помощью команды Выбор элементов удалить их и обучить классификаторы, включая только наиболее полезные предикторы.

После обучения классификатора график рассеяния показывает результаты прогнозирования модели. Можно отобразить или скрыть правильные или неправильные результаты и визуализировать результаты по классам. См. раздел Результаты построения классификатора.

Можно экспортировать графики разброса, созданные в приложении, в фигуры. См. раздел Экспорт графиков в приложении Classification Learner App.

Выбор элементов для включения

В Classification Learner можно указать различные функции (или предикторы) для включения в модель. Узнайте, можно ли улучшить модели, удалив функции с низкой прогнозируемой мощностью. Если сбор данных является дорогостоящим или сложным, вы можете предпочесть модель, которая работает удовлетворительно без некоторых предикторов.

  1. На вкладке «Классификатор» в разделе «Элементы» выберите «Выбор элементов».

  2. В диалоговом окне Выбор элемента (Feature Selection) снимите флажки для предикторов, которые требуется исключить.

    Feature Selection menu with SepalLength and SepalWidth selected, and PetalLength and PetalWidth cleared

    Совет

    Диалоговое окно «Выбор элемента» можно закрыть или переместить. Варианты выбора в диалоговом окне остаются.

  3. Щелкните Обучить (Train), чтобы обучить новую модель с помощью новых опций предиктора.

  4. Просмотрите новую модель на панели Модели (Models). На панели Сводка текущей модели (Current Model Summary) отображается количество исключенных предикторов.

  5. Чтобы проверить, какие предикторы включены в обучаемую модель, щелкните модель на панели Модели (Models) и просмотрите флажки в диалоговом окне Выбор элемента (Feature Selection).

  6. Можно попытаться улучшить модель, включив в нее различные элементы.

Пример использования выбора функций см. в разделе Дерево принятия решений поезда с помощью приложения Classification Learner App.

Преобразование функций с помощью PCA в классификаторе

Используйте анализ главных компонентов (PCA), чтобы уменьшить размерность пространства предиктора. Уменьшение размерности может создать классификационные модели в Classification Learner, которые помогут предотвратить переоборудование. PCA линейно преобразует предикторы, чтобы удалить избыточные измерения, и генерирует новый набор переменных, называемых главными компонентами.

  1. На вкладке Classification Learner в разделе Features выберите PCA.

  2. В диалоговом окне Дополнительные параметры PCA установите флажок Включить PCA.

    Можно закрыть диалоговое окно PCA или переместить его. Варианты выбора в диалоговом окне остаются.

  3. При следующем нажатии кнопки «Поезд» pca функция преобразует выбранные функции перед обучением классификатора.

  4. По умолчанию PCA сохраняет только компоненты, объясняющие 95% отклонения. В диалоговом окне PCA можно изменить процент отклонения для объяснения, выбрав значение Объяснено отклонение. Более высокое значение может привести к переоборудованию, а более низкое - к удалению полезных измерений.

  5. Если необходимо вручную ограничить количество компонентов PCA, в списке Критерий сокращения компонентов выберите Specify number of components. Выберите значение Количество числовых компонентов. Число компонентов не может превышать число числовых предикторов. PCA не применяется к категориальным предикторам.

Проверьте параметры PCA для обученных моделей на панели Сведения о текущей модели (Current Model Summary). Проверьте описанные проценты отклонений, чтобы определить необходимость изменения количества компонентов. Например:

PCA is keeping enough components to explain 95% variance. 
After training, 2 components were kept. 
Explained variance per component (in order): 92.5%, 5.3%, 1.7%, 0.5%

Чтобы узнать больше о том, как Classification Learner применяет PCA к вашим данным, создайте код для вашего обученного классификатора. Для получения дополнительной информации о PCA см. pca функция.

Исследование элементов на графике параллельных координат

Чтобы исследовать элементы для включения или исключения, используйте график параллельных координат. Можно визуализировать высокоразмерные данные на одном графике для просмотра 2-D образцов. График может помочь понять взаимосвязи между элементами и определить полезные предикторы для разделения классов. На графике параллельных координат можно визуализировать учебные данные и точки с неправильной классификацией. При печати результатов классификатора точки с неправильной классификацией имеют пунктирные линии.

  1. На вкладке «Классификатор» в разделе «Графики» выберите «Параллельные координаты».

  2. На графике перетащите метки засечки X, чтобы изменить порядок предикторов. Изменение порядка может помочь определить предикторы, которые хорошо разделяют классы.

  3. Чтобы указать, какие предикторы следует выводить на график, используйте флажки Предикторы (Predictors). Хорошей практикой является одновременное построение нескольких предикторов. Если в данных много предикторов, график показывает первые 10 предикторов по умолчанию.

  4. Если предикторы имеют значительно разные масштабы, масштабируйте данные для более легкой визуализации. Попробуйте использовать различные параметры в списке Масштабирование:

    • None отображает необработанные данные вдоль линеек координат с одинаковыми минимальными и максимальными пределами.

    • Range отображает необработанные данные вдоль линеек координат, имеющих независимые минимальные и максимальные пределы.

    • Z-Score отображает z-оценки (со средним значением 0 и стандартным отклонением 1) вдоль каждой координатной линейки.

    • Zero Mean отображает данные, центрированные так, чтобы они имели среднее значение 0 вдоль каждой координатной линейки.

    • Unit Variance отображает значения, масштабированные по стандартному отклонению вдоль каждой координатной линейки.

    • L2 Norm отображает значения 2-норм вдоль каждой координатной линейки.

  5. Если вы идентифицируете предикторы, которые не полезны для выделения классов, используйте команду Выбор элементов (Feature Selection), чтобы удалить их и обучить классификаторы, включая только наиболее полезные предикторы.

Сюжет fisheriris данные показывают, что длина лепестка и ширина лепестка лучше всего разделяют классы.

Parallel coordinates plot displaying classifier results for the Fisher iris data

Созданные в приложении графики с параллельными координатами можно экспортировать в фигуры. См. раздел Экспорт графиков в приложении Classification Learner App.

Связанные темы