Оцените производительность классификатора в Classification Learner

После учебных классификаторов в Classification Learner можно сравнить модели на основе баллов точности, визуализировать результаты путем графического вывода прогнозов класса и проверять производительность с помощью матрицы беспорядка и кривой ROC.

Если вы используете перекрестную проверку k-сгиба, то приложение вычисляет баллы точности с помощью наблюдений в k валидации, сворачивает и сообщает о средней ошибке перекрестной проверки. Это также делает прогнозы на наблюдениях в этих, валидация сворачивает и вычисляет матрицу беспорядка и кривую ROC на основе этих прогнозов.
Примечание
Когда вы импортируете данные в приложение, если вы принимаете значения по умолчанию, приложение автоматически использует перекрестную проверку. Чтобы узнать больше, смотрите, Выбирают Validation Scheme.
Если вы используете валидацию затяжки, приложение вычисляет баллы точности с помощью наблюдений в сгибе валидации и делает прогнозы на этих наблюдениях. Приложение также вычисляет матрицу беспорядка и кривую ROC на основе этих прогнозов.
Если вы принимаете решение не использовать схему валидации, счет является точностью перезамены на основе всех обучающих данных, и прогнозы являются прогнозами перезамены.

Проверяйте производительность в список предыстории

После обучения модель в Classification Learner проверяйте Список предыстории, чтобы видеть, какая модель имеет лучшую общую точность в проценте. Лучший счет Accuracy подсвечен в поле. Этот счет является точностью валидации (если вы не выбрали схему валидации). Счет точности валидации оценивает производительность модели на новых данных по сравнению с обучающими данными. Используйте счет, чтобы помочь вам выбрать лучшую модель.

Для перекрестной проверки счет является точностью на всех наблюдениях, считая каждое наблюдение, когда это было в протянутом сгибе.
Для валидации затяжки счет является точностью на протянутых наблюдениях.
Ни для какой валидации счет является точностью перезамены против всех наблюдений обучающих данных.

Лучшая общая оценка не может быть лучшей моделью для вашей цели. Модель с немного более низкой общей точностью может быть лучшим классификатором для вашей цели. Например, ложные положительные стороны в конкретном классе могут быть важны для вас. Вы можете хотеть исключить некоторые предикторы, где сбор данных является дорогим или трудным.

Чтобы узнать как классификатор, выполняемый в каждом классе, исследуйте матрицу беспорядка.

Постройте результаты классификатора

В графике рассеивания просмотрите результаты классификатора. После того, как вы обучаете классификатор, переключатели графика рассеивания от отображения данных к показу прогнозов модели. Если вы используете затяжку или перекрестную проверку, то эти прогнозы являются прогнозами на протянутых наблюдениях. Другими словами, каждый прогноз получен с помощью модели, которая была обучена, не используя соответствующее наблюдение. Чтобы исследовать ваши результаты, используйте средства управления справа. Вы можете:

Выберите, построить ли прогнозы модели или одни только данные.
Покажите или скройте правильные или неправильные результаты с помощью флажков под Model predictions.
Выберите функции, чтобы построить использование X и списков Y под Predictors.
Визуализируйте результаты классом путем показа или сокрытия определенных классов с помощью флажков под Show.
Измените порядок размещения нанесенных на график классов путем выбора класса под Classes и затем нажатия на Move to Front.
Увеличьте и уменьшите масштаб, или панорамирование через график. Чтобы позволить масштабировать или панорамировать, наведите мышь на график рассеивания и нажмите соответствующую кнопку на панели инструментов, которая появляется выше правого верхнего из графика.

См. также Исследуют Функции в Графике поля точек.

Чтобы экспортировать графики рассеивания, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Проверяйте производительность в классе в матрице беспорядка

Используйте матричный график беспорядка изучить, как в настоящее время выбранный классификатор выполнил в каждом классе. Чтобы просмотреть матрицу беспорядка после обучения модель, на вкладке Classification Learner, в разделе Plots, нажимают Confusion Matrix. Матрица беспорядка помогает вам идентифицировать области, где классификатор выполнил плохо.

Когда вы открываете график, строки показывают истинный класс, и столбцы показывают предсказанный класс. Если вы используете затяжку или перекрестную проверку, то матрица беспорядка вычисляется с помощью прогнозов на протянутых наблюдениях. Диагональные ячейки показывают, где истинный класс и предсказал соответствие класса. Если эти ячейки являются зелеными, классификатор выполнил хорошо и классифицировал наблюдения за этим истинным классом правильно.

Представление по умолчанию показывает количество наблюдений в каждой ячейке.

Чтобы видеть, как классификатор, выполняемый в классе, под Plot, выбирает True Positive Rates, опцию False Negative Rates. График показывает сводные данные в истинном классе в последних двух столбцах справа.

Совет

Ищите области, где классификатор выполнил плохо путем исследования ячеек от диагонали, которые отображают высокие проценты и являются красными. Чем выше процент, тем более яркий оттенок цвета ячейки. В этих эритроцитах не соответствуют истинный класс и предсказанный класс. Точки данных неправильно классифицируются.

В этом примере, с помощью carsmall набор данных, верхняя строка показывает все автомобили с истинным классом Франция. Столбцы показывают предсказанные классы. В верхней строке правильно классифицируются 25% автомобилей из Франции, таким образом, 25% является истинным положительным уровнем для правильно классифицированных точек в этом классе, показанном в зеленой ячейке в столбце True Positive Rate.

Другие автомобили в строке Франции неправильно классифицируются: 50% автомобилей неправильно классифицируются как из Японии, и 25% классифицируются как из Швеции. 75% является ложным отрицательным уровнем для неправильно классифицированных точек в этом классе, показанном в эритроците в столбце False Negative Rate.

Если вы хотите видеть, что количества наблюдений (автомобили, в этом примере) вместо процентов, под Plot, выбирают Number of observations.

Если ложные положительные стороны важны в вашей проблеме классификации, строят результаты в предсказанном классе (вместо истинного класса), чтобы исследовать ложные уровни открытия. Чтобы видеть результаты в предсказанном классе, под Plot, выбирают опцию False Discovery Rates Positive Predictive Values. Матрица беспорядка теперь показывает сводные строки под таблицей. Положительные прогнозирующие значения отображают зеленым для правильно предсказанных точек в каждом классе, и ложные уровни открытия показывают ниже его в красном для неправильно предсказанных точек в каждом классе.

Если вы решаете, что существует слишком много неправильно классифицированных точек в классах интереса, пытаются изменить настройки классификатора или выбор признаков, чтобы искать лучшую модель.

Чтобы экспортировать матричные графики беспорядка, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Проверяйте кривую ROC

Чтобы просмотреть кривую ROC после обучения модель, на вкладке Classification Learner, в разделе Plots, нажимают ROC Curve. Просмотрите истину и ложь показа кривой рабочей характеристики получателя (ROC) положительные уровни. Кривая ROC показывает истинный положительный уровень по сравнению с ложным положительным уровнем для в настоящее время выбранного обученного классификатора. Можно выбрать различные классы, чтобы построить.

Маркер на графике показывает производительность в настоящее время выбранного классификатора. Маркер показывает значения ложного положительного уровня (FPR) и истинного положительного уровня (TPR) для в настоящее время выбранного классификатора. Например, ложный положительный уровень (FPR) 0,2 указывает, что текущий классификатор присваивает 20% наблюдений неправильно к положительному классу. Истинный положительный уровень 0,9 указывает, что текущий классификатор присваивает 90% наблюдений правильно к положительному классу.

Совершенным результатом без неправильно классифицированных точек является прямой угол к левому верхнему из графика. Плохим результатом, который является не лучше, чем случайный, является линия в 45 градусах. Номер Area Under Curve является мерой общего качества классификатора. Большие значения Area Under Curve указывают на лучшую производительность классификатора. Сравните классы и обученные модели, чтобы видеть, выполняют ли они по-другому в кривой ROC.

Для получения дополнительной информации смотрите perfcurve.

Чтобы экспортировать ROC изгибают графики, которые вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Документация