Выбор данных и проверка для проблемы классификации

Выбор данных из рабочей области

Совет

В Classification Learner таблицы являются самым простым способом использования данных, поскольку они могут содержать числовые данные и данные меток. Используйте инструмент импорта для переноса данных в рабочую область MATLAB ® в виде таблицы или используйте функции таблицы для создания table из переменных рабочей области. См. раздел Таблицы.

Загрузите данные в рабочую область MATLAB.
Переменные предиктора и отклика могут быть числовыми, категориальными, строковыми или логическими векторами, массивами ячеек символьных векторов или символьными массивами. Примечание.Если переменная ответа является строковым вектором, то прогнозы обученной модели образуют клеточный массив символьных векторов.
Объедините данные предиктора в одну переменную, таблицу или матрицу. Можно дополнительно объединить данные предиктора и переменную ответа или сохранить их отдельно.
Например, наборы данных см. в разделе Пример данных для классификации.
На вкладке Приложения щелкните Классификатор.
В разделе «Классификатор» на вкладке «Классификатор» в разделе «Файл» выберите «Новый сеанс» > «Из рабочей области».
В диалоговом окне Создать сессию из рабочей области (New Session from Workspace) в разделе Переменная набора данных (Data Set Variable) выберите таблицу или матрицу из списка переменных рабочей области.
При выборе матрицы выберите, следует ли использовать строки или столбцы для наблюдений, нажав кнопки опций.
В разделе Ответ (Response) обратите внимание на переменную ответа по умолчанию. Приложение пытается выбрать подходящую переменную ответа из переменной набора данных и рассматривает все другие переменные как предикторы.
Если требуется использовать другую переменную ответа, можно:
- Используйте список, чтобы выбрать другую переменную из переменной набора данных.
- Выберите отдельную переменную рабочей области, нажав кнопку Из рабочей области и выбрав переменную из списка.
В разделе Предикторы добавьте или удалите предикторы с помощью флажков. Добавьте или удалите все предикторы, щелкнув Добавить все (Add All) или Удалить все (Remove All). Можно также добавить или удалить несколько предикторов, выбрав их в таблице, а затем щелкнув Добавить N или Удалить N, где N - количество выбранных предикторов. Кнопки Добавить все (Add All) и Удалить все (Remove All) меняются на Добавить N (Add N) и Удалить N (Remove N) при выборе нескольких предикторов.
Чтобы принять схему проверки по умолчанию и продолжить, щелкните Начать сеанс (Start Session). Опция проверки по умолчанию - пятикратная перекрестная проверка, которая защищает от переоборудования.
Совет
При наличии большого набора данных можно переключиться на проверку удержания. Дополнительные сведения см. в разделе Выбор схемы проверки.

Примечание

Если вы предпочитаете загружать данные в приложение непосредственно из командной строки, вы можете указать данные предиктора, переменную ответа и тип проверки для использования в Classification Learner при вызове командной строки classificationLearner. Дополнительные сведения см. в разделе Классификатор.

Следующие шаги см. в разделе Модели классификации поездов в приложении Classification Learner App.

Импорт данных из файла

На вкладке «Классификатор» в разделе «Файл» выберите «Новый сеанс» > «Из файла».
Выберите тип файла в списке, например электронные таблицы, текстовые файлы или разделенные запятыми значения (.csv) файлов или выберите «Все файлы» для поиска других типов файлов, таких как .dat.

Пример данных для классификации

Чтобы начать использовать Classification Learner, попробуйте следующие примеры наборов данных.

Имя	Размер	Описание
Фишер Айрис	Количество предикторов: 4 Количество наблюдений: 150 Количество классов: 3 Ответ: виды	Измерения по трем видам радужки. Попробуйте классифицировать вид. Пошаговый пример см. в разделе Подготовка деревьев принятия решений с помощью приложения Classification Learner App.
Фишер Айрис	Создание таблицы из `.csv` файл: fishertable = readtable('fisheriris.csv');
Кредитный рейтинг	Количество предикторов: 6 Число наблюдений: 3932 Количество классов: 7 Ответ: Оценка	Финансовые коэффициенты и отраслевая информация для списка корпоративных клиентов. Переменная ответа состоит из кредитных рейтингов (AAA, AA, A, BBB, BB, B, CCC), присвоенных рейтинговым агентством.
Кредитный рейтинг	Создание таблицы из `CreditRating_Historical.dat` файл: creditrating = readtable('CreditRating_Historical.dat');
Автомобили	Количество предикторов: 7 Количество наблюдений: 100 Количество классов: 7 Ответ: Начало	Замеры автомобилей, в 1970, 1976, и 1982 годах. Попробуйте классифицировать страну происхождения.
Автомобили	Создание таблицы из переменных в `carsmall.mat` файл: load carsmall cartable = table(Acceleration, Cylinders, Displacement,... Horsepower, Model_Year, MPG, Weight, Origin);
Аритмия	Количество предикторов: 279 Количество наблюдений: 452 Количество классов: 16 Ответ: класс (Y)	Информация о пациенте и переменные ответа, которые указывают на наличие и отсутствие сердечной аритмии. Неправильная классификация пациента как «нормального» имеет более серьезные последствия, чем ложные положительные результаты, классифицированные как «имеет аритмию».
Аритмия	Создание таблицы из `.mat` файл: load arrhythmia Arrhythmia = array2table(X); Arrhythmia.Class = categorical(Y);
Рак яичников	Количество предикторов: 4000 Число наблюдений: 216 Количество классов: 2 Ответ: Группа	Данные о раке яичников, полученные с использованием массива WCX2 белков. Включает 95 контролей и 121 рак яичников.
Рак яичников	Создание таблицы из `.mat` файл: load ovariancancer ovariancancer = array2table(obs); ovariancancer.Group = categorical(grp);
Ионосфера	Количество предикторов: 34 Число наблюдений: 351 Количество классов: 2 Ответ: Группа (Y)	Сигналы от фазированной решетки из 16 высокочастотных антенн. Хорошие («g») возвращенные радиолокационные сигналы - это те, которые показывают признаки некоторого типа структуры в ионосфере. Плохие («b») сигналы - это сигналы, которые проходят через ионосферу.
Ионосфера	Создание таблицы из `.mat` файл: load ionosphere ionosphere = array2table(X); ionosphere.Group = Y;

Выбрать схему проверки

Выберите метод проверки, чтобы проверить точность прогнозирования подходящих моделей. Проверка оценивает производительность модели на новых данных по сравнению с данными обучения и помогает выбрать лучшую модель. Проверка защищает от переоборудования. Выберите схему проверки перед обучением любым моделям, чтобы можно было сравнить все модели в сессии, используя одну и ту же схему проверки.

Совет

Попробуйте использовать схему проверки по умолчанию и нажмите кнопку «» Начать сеанс «», чтобы продолжить. Опция по умолчанию - пятикратная перекрестная проверка, которая защищает от переоборудования.

Если у вас большой набор данных, и обучение моделей занимает слишком много времени, используя перекрестную проверку, повторно импортируйте свои данные и попробуйте ускорить проверку удержания.

Перекрестная проверка: Выберите несколько складок (или секций) для разделения набора данных.
Если выбрать k складок, приложение:
1. Разделение данных на k непересекающихся наборов или складок
2. Для каждой гибки проверки:
  1. Обучает модель с использованием тренировочных наблюдений (наблюдения не в валидации)
  2. Оценка производительности модели с использованием кратных данных проверки
3. Вычисляет среднюю ошибку проверки по всем складкам
Этот метод дает хорошую оценку прогнозирующей точности окончательной модели, обученной со всеми данными. Он требует нескольких подгонок, но обеспечивает эффективное использование всех данных, поэтому его рекомендуется использовать для небольших наборов данных.
Проверка отсутствия: выберите процент данных для использования в качестве набора проверки. Приложение обучает модель на обучающем наборе и оценивает ее производительность с помощью набора проверки. Модель, используемая для проверки, основана только на части данных, поэтому функцию «Проверка отсутствия данных» рекомендуется использовать только для больших наборов данных. Окончательная модель обучается с полным набором данных.
Подтверждение повторного предоставления: Нет защиты от переоборудования. Приложение использует все данные для обучения и вычисляет частоту ошибок для одних и тех же данных. Без каких-либо отдельных данных проверки можно получить нереалистичную оценку производительности модели для новых данных. То есть точность обучающей выборки, вероятно, будет нереально высокой, и точность прогнозирования, вероятно, будет ниже.
Чтобы избежать переполнения данных обучения, выберите другую схему проверки.

Примечание

Схема проверки влияет только на то, как Classification Learner вычисляет метрики проверки. Окончательная модель всегда обучается с использованием полного набора данных.

Все модели классификации, которые вы обучаете после выбора данных, используют ту же схему проверки, которая выбрана в этом диалоговом окне. Можно сравнить все модели в сессии, используя одну и ту же схему проверки.

Чтобы изменить выбор проверки и обучить новые модели, можно снова выбрать данные, но вы потеряете все обученные модели. Приложение предупреждает, что импорт данных запускает новый сеанс. Сохраните все обучаемые модели, которые необходимо сохранить в рабочей области, а затем импортируйте данные.

Для получения дополнительной информации о моделях обучения см. раздел Модели классификации поездов в приложении Classification Learner App.

Документация