Выбор признаков и преобразование функции Используя приложение Classification Learner

Исследуйте функции в графике поля точек

В Classification Learner попытайтесь идентифицировать предикторы, которые разделяют классы хорошо путем графического вывода различных пар предикторов на графике рассеивания. График может помочь вам исследовать функции, чтобы включать или исключить. Можно визуализировать обучающие данные и неправильно классифицированные точки на графике рассеивания.

Прежде чем вы обучите классификатор, график рассеивания показывает данные. Если вы обучили классификатор, график рассеивания показывает результаты предсказания модели. Переключитесь на отображение на графике только данных путем выбора Data в средствах управления Plot.

Выберите признаки, чтобы построить использование X и списков Y под Predictors.
Ищите предикторы, это разделяет классы хорошо. Например, графический вывод fisheriris данные, вы видите, что длина чашелистика и ширина чашелистика разделяют один из классов хорошо (setosa). Необходимо построить другие предикторы, чтобы видеть, можно ли разделить другие два класса.
Покажите или скройте определенные классы с помощью флажков под Show.
Измените порядок размещения нанесенных на график классов путем выбора класса под Classes и затем нажатия на Move to Front.
Исследуйте более прекрасные детали путем увеличения и уменьшения масштаба и панорамирования через график. Чтобы позволить масштабировать или панорамировать, наведите мышь на график рассеивания и нажмите соответствующую кнопку на панели инструментов, которая появляется выше правого верхнего из графика.
Если вы идентифицируете предикторы, которые не полезны для выделения классов, то пытаются использовать Feature Selection, чтобы удалить их и обучить классификаторы только включая самые полезные предикторы.

После того, как вы обучите классификатор, график рассеивания показывает результаты предсказания модели. Можно показать или скрыть правильные или неправильные результаты и визуализировать результаты классом. Смотрите Результаты Классификатора Графика.

Можно экспортировать графики рассеивания, которые вы создаете в приложении фигурам. См. Графики Экспорта в Приложении Classification Learner.

Выберите Features to Include

В Classification Learner можно задать различные функции (или предикторы), чтобы включать в модель. Смотрите, можно ли улучшить модели путем удаления функций с низкой предсказательной силой. Если сбор данных является дорогим или трудным, вы можете предпочесть модель, которая выполняет удовлетворительно без некоторых предикторов.

На вкладке Classification Learner, в разделе Features, нажимают Feature Selection.
В диалоговом окне Feature Selection снимите флажки для предикторов, которые вы хотите исключить.
Совет
Можно закрыть диалоговое окно Feature Selection или переместить его. Ваш выбор в диалоговом окне остается.
Нажмите Train, чтобы обучить новую модель с помощью новых опций предиктора.
Наблюдайте новую модель в панели Models. Панель Current Model Summary отображается, сколько предикторов исключено.
Чтобы проверять, какие предикторы включены в обученную модель, щелкните, модель в Models разделяют на области и наблюдают флажки в диалоговом окне Feature Selection.
Можно попытаться улучшить модель включением различных функций в модели.

Для примера с помощью выбора признаков смотрите, Обучают Деревья решений Используя Приложение Classification Learner.

Преобразуйте функции с PCA в Classification Learner

Используйте анализ главных компонентов (PCA), чтобы уменьшать размерность пробела предиктора. Сокращение размерности может создать модели классификации в Classification Learner, что справка предотвращает сверхподбор кривой. PCA линейно преобразовывает предикторы для того, чтобы удалить избыточные размерности и генерирует новый набор названных основных компонентов переменных.

На вкладке Classification Learner, в разделе Features, выбирают PCA.
В Усовершенствованном Окне параметров PCA установите флажок Enable PCA.
Можно закрыть диалоговое окно PCA или переместить его. Ваш выбор в диалоговом окне остается.
Когда вы затем нажимаете Train, pca функционируйте преобразовывает ваши выбранные функции перед обучением классификатор.
По умолчанию PCA сохраняет только компоненты, которые объясняют 95% отклонения. В диалоговом окне PCA можно изменить процент отклонения, чтобы объяснить путем выбора значения Explained variance. Более высокое значение рискует сверхсоответствовать, в то время как нижнее значение рискует удалять полезные размерности.
Если вы хотите вручную ограничить количество компонентов PCA в списке Component reduction criterion, выберите Specify number of components. Выберите значение Number of numeric components. Количество компонентов не может быть больше, чем количество числовых предикторов. PCA не применяется к категориальным предикторам.

Проверяйте опции PCA на обученные модели в информации о панели Current Model Summary. Проверяйте объясненные проценты отклонения, чтобы решить, изменить ли количество компонентов. Например:

PCA is keeping enough components to explain 95% variance. 
After training, 2 components were kept. 
Explained variance per component (in order): 92.5%, 5.3%, 1.7%, 0.5%

Чтобы узнать больше, как Classification Learner применяет PCA к вашим данным, сгенерируйте код для своего обученного классификатора. Для получения дополнительной информации о PCA смотрите pca функция.

Исследуйте функции в параллельном графике координат

Чтобы исследовать функции, чтобы включать или исключить, используйте параллельный график координат. Можно визуализировать высоко-размерные данные по одному графику видеть 2D шаблоны. График может помочь вам изучить отношения между функциями и идентифицировать полезные предикторы для разделения классов. Можно визуализировать обучающие данные и неправильно классифицированные точки на параллельном графике координат. Когда вы строите результаты классификатора, неправильно классифицированные точки имеют пунктирные линии.

На вкладке Classification Learner, в разделе Plots, нажимают Parallel Coordinates.
На графике перетащите метки в виде галочки X, чтобы переупорядочить предикторы. Изменение порядка может помочь вам идентифицировать предикторы, это разделяет классы хорошо.
Чтобы задать который предикторы построить, используйте флажки Predictors. Хорошая практика должна построить несколько предикторов за один раз. Если ваши данные имеют много предикторов, график показывает первые 10 предикторов по умолчанию.
Если предикторы имеют существенно отличающиеся шкалы, масштабируют данные для более легкой визуализации. Попробуйте различные варианты в списке Scaling:
- None необработанные данные отображений вдоль координатных линеек, которые имеют те же минимальные и максимальные пределы.
- Range необработанные данные отображений вдоль координатных линеек, которые имеют независимые минимальные и максимальные пределы.
- Z-Score z-баллы отображений (со средним значением 0 и стандартным отклонением 1) вдоль каждой координатной линейки.
- Zero Mean данные об отображениях, сосредоточенные, чтобы иметь среднее значение 0 вдоль каждой координатной линейки.
- Unit Variance значения отображений, масштабируемые стандартным отклонением вдоль каждой координатной линейки.
- L2 Norm значения 2-нормы отображений вдоль каждой координатной линейки.
Если вы идентифицируете предикторы, которые не полезны для выделения классов, используют Feature Selection, чтобы удалить их и обучить классификаторы только включая самые полезные предикторы.

График fisheriris данные показывают лепестковую длину, и лепестковые функции ширины разделяют классы лучше всего.

Parallel coordinates plot displaying classifier results for the Fisher iris data

Можно экспортировать параллельные графики координат, которые вы создаете в приложении фигурам. См. Графики Экспорта в Приложении Classification Learner.

Документация