Оцените производительность классификатора в Classification Learner

После учебных классификаторов в Classification Learner можно сравнить модели на основе баллов точности, визуализировать результаты путем графического вывода предсказаний класса и проверять производительность с помощью матрицы беспорядка и кривой ROC.

  • Если вы используете перекрестную проверку k-сгиба, то приложение вычисляет баллы точности с помощью наблюдений в k валидации, сворачивает и сообщает о средней ошибке перекрестной проверки. Это также делает предсказания на наблюдениях в этих, валидация сворачивает и вычисляет матрицу беспорядка и кривую ROC на основе этих предсказаний.

    Примечание

    Когда вы импортируете данные в приложение, если вы принимаете значения по умолчанию, приложение автоматически использует перекрестную проверку. Чтобы узнать больше, смотрите, Выбирают Validation Scheme.

  • Если вы используете валидацию затяжки, приложение вычисляет баллы точности с помощью наблюдений в сгибе валидации и делает предсказания на этих наблюдениях. Приложение также вычисляет матрицу беспорядка и кривую ROC на основе этих предсказаний.

  • Если вы принимаете решение не использовать схему валидации, счет является точностью перезамены на основе всех обучающих данных, и предсказания являются предсказаниями перезамены.

Проверяйте производительность в список предыстории

После обучения модель в Classification Learner проверяйте Список предыстории, чтобы видеть, какая модель имеет лучшую общую точность в проценте. Лучший счет Accuracy подсвечен в поле. Этот счет является точностью валидации (если вы не выбрали схему валидации). Счет точности валидации оценивает производительность модели на новых данных по сравнению с обучающими данными. Используйте счет, чтобы помочь вам выбрать лучшую модель.

  • Для перекрестной проверки счет является точностью на всех наблюдениях, считая каждое наблюдение, когда это было в протянутом сгибе.

  • Для валидации затяжки счет является точностью на протянутых наблюдениях.

  • Ни для какой валидации счет является точностью перезамены против всех наблюдений обучающих данных.

Лучшая общая оценка не может быть лучшей моделью для вашей цели. Модель с немного более низкой общей точностью может быть лучшим классификатором для вашей цели. Например, ложные положительные стороны в конкретном классе могут быть важны для вас. Вы можете хотеть исключить некоторые предикторы, где сбор данных является дорогим или трудным.

Чтобы узнать как классификатор, выполняемый в каждом классе, исследуйте матрицу беспорядка.

Постройте результаты классификатора

В графике рассеивания просмотрите результаты классификатора. После того, как вы обучаете классификатор, переключатели графика рассеивания от отображения данных к показу предсказаний модели. Если вы используете затяжку или перекрестную проверку, то эти предсказания являются предсказаниями на протянутых наблюдениях. Другими словами, каждое предсказание получено с помощью модели, которая была обучена, не используя соответствующее наблюдение. Чтобы исследовать ваши результаты, используйте средства управления справа. Вы можете:

  • Выберите, построить ли предсказания модели или одни только данные.

  • Покажите или скройте правильные или неправильные результаты с помощью флажков под Model predictions.

  • Выберите признаки, чтобы построить использование X и списков Y под Predictors.

  • Визуализируйте результаты классом путем показа или сокрытия определенных классов с помощью флажков под Show.

  • Измените порядок размещения нанесенных на график классов путем выбора класса под Classes и затем нажатия на Move to Front.

  • Увеличьте и уменьшите масштаб, или панорамирование через график. Чтобы позволить масштабировать или панорамировать, наведите мышь на график рассеивания и нажмите соответствующую кнопку на панели инструментов, которая появляется выше правого верхнего из графика.

Scatter plot of the Fisher iris data. Correctly classified points are
                        marked with an O. Incorrectly classified points are marked with an X.

См. также Исследуют Функции в Графике поля точек.

Чтобы экспортировать графики рассеивания, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Проверяйте производительность в классе в матрице беспорядка

Используйте матричный график беспорядка изучить, как в настоящее время выбранный классификатор выполнил в каждом классе. Чтобы просмотреть матрицу беспорядка после обучения модель, нажмите Confusion Matrix в разделе Plots вкладки Classification Learner. Матрица беспорядка помогает вам идентифицировать области, где классификатор выполнил плохо.

Когда вы открываете график, строки показывают истинный класс, и столбцы показывают предсказанный класс. Если вы используете затяжку или перекрестную проверку, то матрица беспорядка вычисляется с помощью предсказаний на протянутых наблюдениях. Диагональные ячейки показывают, где истинный класс и предсказал соответствие класса. Если эти диагональные ячейки являются синими, классификатор классифицировал наблюдения за этим истинным классом, классифицируются правильно.

Представление по умолчанию показывает количество наблюдений в каждой ячейке.

Чтобы видеть, как классификатор, выполняемый в классе, под Plot, выбирает True Positive Rates (TPR), опцию False Negative Rates (FNR). TPR является пропорцией правильно классифицированных наблюдений в истинном классе. FNR является пропорцией неправильно классифицированных наблюдений в истинном классе. График показывает сводные данные в истинном классе в последних двух столбцах справа.

Совет

Ищите области, где классификатор выполнил плохо путем исследования ячеек от диагонали, которые отображают высокие проценты и являются оранжевыми. Чем выше процент, тем более темный оттенок цвета ячейки. В этих оранжевых ячейках не соответствуют истинный класс и предсказанный класс. Точки данных неправильно классифицируются.

Confusion matrix of the carsmall data set assessing a model that predicts
                        the country of origin

В этом примере, который использует carsmall набор данных, верхняя строка показывает все автомобили с истинным классом Франция. Столбцы показывают предсказанные классы. В верхней строке правильно классифицируются 25% автомобилей из Франции, таким образом, 25% является истинным положительным уровнем для правильно классифицированных точек в этом классе, показанном в синей ячейке в столбце TPR.

Другие автомобили в строке Франции неправильно классифицируются: 25% автомобилей неправильно классифицируются как из Японии, и 50% классифицируются как из США. Ложным отрицательным уровнем для неправильно классифицированных точек в этом классе является 75%, показанный в оранжевой ячейке в столбце FNR.

Если вы хотите видеть, что количества наблюдений (автомобили, в этом примере) вместо процентов, под Plot, выбирают Number of observations.

Если ложные положительные стороны важны в вашей проблеме классификации, строят результаты в предсказанном классе (вместо истинного класса), чтобы исследовать ложные уровни открытия. Чтобы видеть результаты в предсказанном классе, под Plot, выбирают Positive Predictive Values (PPV), опцию False Discovery Rates (FDR). PPV является пропорцией правильно классифицированных наблюдений в предсказанном классе. ФРГ является пропорцией неправильно классифицированных наблюдений в предсказанном классе. С этой выбранной опцией матрица беспорядка теперь включает сводные строки ниже таблицы. Положительные прогнозирующие значения отображают синим для правильно предсказанных точек в каждом классе, и ложные уровни открытия отображают оранжевым для неправильно предсказанных точек в каждом классе.

Если вы решаете, что существует слишком много неправильно классифицированных точек в классах интереса, пытаются изменить настройки классификатора или выбор признаков, чтобы искать лучшую модель.

Чтобы экспортировать матричные графики беспорядка, вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Проверяйте кривую ROC

Чтобы просмотреть кривую ROC после обучения модель, на вкладке Classification Learner, в разделе Plots, нажимают ROC Curve. Просмотрите истину и ложь показа кривой рабочей характеристики получателя (ROC) положительные уровни. Кривая ROC показывает истинный положительный уровень по сравнению с ложным положительным уровнем для в настоящее время выбранного обученного классификатора. Можно выбрать различные классы, чтобы построить.

Маркер на графике показывает производительность в настоящее время выбранного классификатора. Маркер показывает значения ложного положительного уровня (FPR) и истинного положительного уровня (TPR) для в настоящее время выбранного классификатора. Например, ложный положительный уровень (FPR) 0,2 указывает, что текущий классификатор присваивает 20% наблюдений неправильно к положительному классу. Истинный положительный уровень 0,9 указывает, что текущий классификатор присваивает 90% наблюдений правильно к положительному классу.

Совершенным результатом без неправильно классифицированных точек является прямой угол к левому верхнему из графика. Плохим результатом, который является не лучше, чем случайный, является линия в 45 градусах. Номер Area Under Curve является мерой общего качества классификатора. Большие значения Area Under Curve указывают на лучшую производительность классификатора. Сравните классы и обученные модели, чтобы видеть, выполняют ли они по-другому в кривой ROC.

Для получения дополнительной информации смотрите perfcurve.

Чтобы экспортировать ROC изгибают графики, которые вы создаете в приложении фигурам, видите Графики Экспорта в Приложении Classification Learner.

Похожие темы

Для просмотра документации необходимо авторизоваться на сайте