Оцените производительность классификатора в Classification Learner

После учебных классификаторов в Classification Learner можно сравнить модели на основе очков точности, визуализировать результаты путем графического вывода прогнозов класса и проверять производительность с помощью матрицы беспорядка и кривой ROC.

  • Если вы используете перекрестную проверку k-сгиба, то приложение вычисляет очки точности с помощью наблюдений в k валидации, сворачивает и сообщает о средней ошибке перекрестной проверки. Это также делает прогнозы на наблюдениях в этих, валидация сворачивает и вычисляет матрицу беспорядка и кривую ROC на основе этих прогнозов.

    Примечание

    Когда вы импортируете данные в приложение, если вы принимаете значения по умолчанию, приложение автоматически использует перекрестную проверку. Чтобы узнать больше, смотрите, Выбирают Validation Scheme.

  • Если вы используете валидацию затяжки, приложение вычисляет очки точности с помощью наблюдений в сгибе валидации и делает прогнозы на этих наблюдениях. Приложение также вычисляет матрицу беспорядка и кривую ROC на основе этих прогнозов.

  • Если вы принимаете решение не использовать схему валидации, счет является точностью перезамены на основе всех данных тренировки, и прогнозы являются прогнозами перезамены.

Проверяйте производительность в список предыстории

После обучения модель в Classification Learner проверяйте Список предыстории, чтобы видеть, какая модель имеет лучшую общую точность в проценте. Лучший счет Accuracy подсвечен в поле. Этот счет является точностью валидации (если вы не выбрали схему валидации). Счет точности валидации оценивает производительность модели на новых данных по сравнению с данными тренировки. Используйте счет, чтобы помочь вам выбрать лучшую модель.

  • Для перекрестной проверки счет является точностью на всех наблюдениях, считая каждое наблюдение, когда это было в протянутом сгибе.

  • Для валидации затяжки счет является точностью на протянутых наблюдениях.

  • Ни для какой валидации счет является точностью перезамены против всех наблюдений данных тренировки.

Лучшая общая оценка не может быть лучшей моделью для вашей цели. Модель с немного более низкой общей точностью может быть лучшим классификатором для вашей цели. Например, ложные положительные стороны в конкретном классе могут быть важны для вас. Вы можете хотеть исключить некоторые предикторы, где сбор данных является дорогим или трудным.

Чтобы узнать как классификатор, выполняемый в каждом классе, исследуйте матрицу беспорядка.

Постройте результаты классификатора

В графике рассеивания просмотрите результаты классификатора. После того, как вы обучаете классификатор, переключатели графика рассеивания от отображения данных к показу образцовых прогнозов. Если вы используете затяжку или перекрестную проверку, то эти прогнозы являются прогнозами на протянутых наблюдениях. Другими словами, каждый прогноз получен с помощью модели, которая была обучена, не используя соответствующее наблюдение. Чтобы исследовать ваши результаты, используйте средства управления справа. Вы можете:

  • Выберите, построить ли образцовые прогнозы или одни только данные.

  • Покажите или скройте правильные или неправильные результаты с помощью флажков под Model predictions.

  • Выберите функции, чтобы построить использование X и списков Y под Predictors.

  • Визуализируйте результаты классом путем показа или сокрытия определенных классов с помощью флажков под Show.

  • Измените порядок размещения нанесенных на график классов путем выбора класса под Classes и затем нажатия на Move to Front.

  • Увеличьте и уменьшите масштаб, или панорамирование через график. Чтобы позволить масштабировать и панорамировать, наведите мышь на график рассеивания и нажмите одну из кнопок, которые появляются около верхнего правого угла графика.

См. также Исследуют Функции в Графике поля точек.

Чтобы экспортировать графики рассеивания, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Проверяйте производительность в классе в матрице беспорядка

Используйте матричный график беспорядка понять, как в настоящее время выбранный классификатор выполнил в каждом классе. Чтобы просмотреть матрицу беспорядка после обучения модель, на вкладке Classification Learner, в разделе Plots, нажимают Confusion Matrix. Матрица беспорядка помогает вам идентифицировать области, где классификатор выполнил плохо.

Когда вы открываете график, строки показывают истинный класс, и столбцы показывают предсказанный класс. Если вы используете затяжку или перекрестную проверку, то матрица беспорядка вычисляется с помощью прогнозов на протянутых наблюдениях. Диагональные ячейки показывают, где истинный класс и предсказал соответствие класса. Если эти ячейки являются зелеными, классификатор выполнил хорошо и классифицировал наблюдения за этим истинным классом правильно.

Представление по умолчанию показывает количество наблюдений в каждой ячейке.

Чтобы видеть, как классификатор, выполняемый в классе, под Plot, выбирает True Positive Rates, опцию False Negative Rates. График показывает сводные данные в истинном классе в последних двух столбцах справа.

Совет

Ищите области, где классификатор выполнил плохо путем исследования ячеек от диагонали, которые отображают высокие проценты и являются красными. Чем выше процент, тем более яркий оттенок цвета ячейки. В этих эритроцитах не соответствуют истинный класс и предсказанный класс. Точки данных неправильно классифицируются.

В этом примере, с помощью набора данных carsmall, верхняя строка показывает все автомобили с истинным классом Франция. Столбцы показывают предсказанные классы. В верхней строке правильно классифицируются 25% автомобилей из Франции, таким образом, 25% является истинным положительным уровнем для правильно классифицированных точек в этом классе, показанном в зеленой ячейке в столбце True Positive Rate.

Другие автомобили в строке Франции неправильно классифицируются: 50% автомобилей неправильно классифицируются как из Японии, и 25% классифицируются как из Швеции. 75% является ложным отрицательным уровнем для неправильно классифицированных точек в этом классе, показанном в эритроците в столбце False Negative Rate.

Если вы хотите видеть, что количества наблюдений (автомобили, в этом примере) вместо процентов, под Plot, выбирают Number of observations.

Если ложные положительные стороны важны в вашей проблеме классификации, строят результаты в предсказанном классе (вместо истинного класса), чтобы исследовать ложные уровни открытия. Чтобы видеть результаты в предсказанном классе, под Plot, выбирают опцию False Discovery Rates Positive Predictive Values. Матрица беспорядка теперь показывает сводные строки под таблицей. Положительные прогнозирующие значения отображают зеленым для правильно предсказанных точек в каждом классе, и ложные уровни открытия показывают ниже его в красном для неправильно предсказанных точек в каждом классе.

Если вы решаете, что существует слишком много неправильно классифицированных точек в классах интереса, пытаются изменить настройки классификатора или показывают выбор, чтобы искать лучшую модель.

Чтобы экспортировать матричные графики беспорядка, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Проверяйте кривую ROC

Чтобы просмотреть кривую ROC после обучения модель, на вкладке Classification Learner, в разделе Plots, нажимают ROC Curve. Просмотрите истину и ложь показа кривой рабочей характеристики получателя (ROC) положительные уровни. Кривая ROC показывает истинный положительный уровень по сравнению с ложным положительным уровнем для в настоящее время выбранного обученного классификатора. Можно выбрать различные классы, чтобы построить.

Маркер на графике показывает производительность в настоящее время выбранного классификатора. Маркер показывает значения ложного положительного уровня (FPR) и истинного положительного уровня (TPR) для в настоящее время выбранного классификатора. Например, ложный положительный уровень (FPR) 0,2 указывает, что текущий классификатор присваивает 20% наблюдений неправильно к положительному классу. Истинный положительный уровень 0,9 указывает, что текущий классификатор присваивает 90% наблюдений правильно к положительному классу.

Совершенным результатом без неправильно классифицированных точек является прямой угол к левому верхнему из графика. Плохим результатом, который является не лучше, чем случайный, является строка в 45 градусах. Номер Area Under Curve является мерой общего качества классификатора. Большие значения Area Under Curve указывают на лучшую производительность классификатора. Сравните классы и обученные модели, чтобы видеть, выполняют ли они по-другому в кривой ROC.

Для получения дополнительной информации смотрите perfcurve.

Чтобы экспортировать ROC изгибают графики, которые вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Похожие темы