Выберите Data и Validation for Classification Problem

Выберите Data from Workspace

Совет

В Classification Learner таблицы являются самым легким способом использовать ваши данные, потому что они могут содержать числовой и пометить данные. Используйте Import Tool, чтобы принести ваши данные в MATLAB® рабочая область как таблица или использование таблица функционирует, чтобы создать a table от переменных рабочей области. См. Таблицы.

  1. Загрузите свои данные в рабочее пространство MATLAB.

    Переменные прогноза и переменные отклика могут быть числовыми, категориальными, строка, или логические векторы, массивы ячеек из символьных векторов или символьные массивы. Примечание: Если ваша переменная отклика является вектором строки, то предсказания обученной модели формируют массив ячеек из символьных векторов.

    Объедините данные о предикторе в одну переменную, или таблица или матрица. Можно дополнительно объединить переменную данных предиктора и переменную отклика, или можно разделить их.

    Например, наборы данных, смотрите Данные В качестве примера для Классификации.

  2. На вкладке Apps нажмите Classification Learner.

  3. На вкладке Classification Learner, в разделе File, нажимают New Session > From Workspace.

  4. В диалоговом окне New Session from Workspace, под Data Set Variable, выбирают таблицу или матрицу из списка переменных рабочей области.

    Если вы выбираете матрицу, выбираете, использовать ли строки или столбцы для наблюдений путем нажатия на переключатели.

  5. Под Response наблюдайте переменную отклика по умолчанию. Приложение пытается выбрать подходящую переменную отклика из переменной набора данных и обрабатывает все другие переменные как предикторы.

    Если вы хотите использовать различную переменную отклика, вы можете:

    • Используйте список, чтобы выбрать другую переменную из переменной набора данных.

    • Выберите отдельную переменную рабочей области путем нажатия на переключатель From workspace и затем выбора переменной из списка.

  6. Под Predictors добавьте или удалите предикторы с помощью флажков. Добавьте или удалите все предикторы путем нажатия на Add All или Remove All. Можно также добавить или удалить несколько предикторов путем выбора их в таблице, и затем нажатия на Add N или Remove N, где N является количеством выбранных предикторов. Кнопки Add All и Remove All превращаются в Add N и Remove N, когда вы выбираете несколько предикторов.

  7. Чтобы принять схему валидации по умолчанию и продолжиться, нажмите Start Session. Опция валидации по умолчанию является 5-кратной перекрестной проверкой, которая защищает от сверхподбора кривой.

    Совет

    Если у вас есть большой набор данных, вы можете хотеть переключиться на валидацию затяжки. Чтобы узнать больше, смотрите, Выбирают Validation Scheme.

Примечание

Если вы предпочитаете загружать данные в приложение непосредственно из командной строки, можно задать данные о предикторе, переменную отклика и тип валидации, чтобы использовать в Classification Learner в вызове командной строки classificationLearner. Для получения дополнительной информации смотрите Classification Learner.

Для следующих шагов смотрите, Обучают Модели Классификации в Приложении Classification Learner.

Импорт данных из файла

  1. На вкладке Classification Learner, в разделе File, выбирают New Session> From File.

  2. Выберите тип файла в списке, таком как электронные таблицы, текстовые файлы, или запятая разделила значения (.csv) файлы, или выбирают All Files, чтобы просмотреть другие типы файлов, такие как .dat.

Данные в качестве примера для классификации

Чтобы начать использовать Classification Learner, попробуйте следующие наборы данных в качестве примера.

ИмяРазмерОписание
Фишер Айрис

Количество предикторов: 4
Количество наблюдений: 150
Количество классов: 3
Ответ: разновидности

Измерения от трех разновидностей ирисовой диафрагмы. Попытайтесь классифицировать разновидности.

Для постепенного примера смотрите, Обучают Деревья решений Используя Приложение Classification Learner.

Составьте таблицу от .csv файл:

fishertable = readtable('fisheriris.csv');

Кредитный рейтинг

Количество предикторов: 6
Количество наблюдений: 3932
Количество классов: 7
Ответ: оценка

Финансовая информация об отношениях и отраслях промышленности для списка корпоративных клиентов. Переменная отклика состоит из кредитных рейтингов (AAA, AA, A, BBB, BB, B, CCC) присвоенный рейтинговым агентством.

Составьте таблицу от CreditRating_Historical.dat файл:

creditrating = readtable('CreditRating_Historical.dat');

Автомобили

Количество предикторов: 7
Количество наблюдений: 100
Количество классов: 7
Ответ: источник

Измерения автомобилей, в 1 970, 1976, и 1982. Попытайтесь классифицировать страну происхождения.

Составьте таблицу от переменных в carsmall.mat файл:

load carsmall
cartable = table(Acceleration, Cylinders, Displacement,...
Horsepower, Model_Year, MPG, Weight, Origin);

Аритмия

Количество предикторов: 279
Количество наблюдений: 452
Количество классов: 16
Ответ: класс (Y)

Терпеливая информация и переменные отклика, которые указывают на присутствие и отсутствие сердечной аритмии. Неправильная классификация пациента как "нормальный" имеет более серьезные последствия, чем ложные положительные стороны, классифицированные, как “имеет аритмию”.

Составьте таблицу от .mat файл:

load arrhythmia
Arrhythmia = array2table(X);
Arrhythmia.Class = categorical(Y);

Рак яичника

Количество предикторов: 4000
Количество наблюдений: 216
Количество классов: 2
Ответ: группа

Данные о раке яичника сгенерировали использование массива белка WCX2. Включает 95 средств управления и 121 рак яичника.

Составьте таблицу от .mat файл:

load ovariancancer
ovariancancer = array2table(obs);
ovariancancer.Group = categorical(grp);

Ионосфера

Количество предикторов: 34
Количество наблюдений: 351
Количество классов: 2
Ответ: группа (Y)

Сигналы от фазированной решетки 16 высокочастотных антенн. Хороший (“g”) возвратился, радарные сигналы - те, которые приводят доказательство некоторого типа структуры в ионосфере. Плохой (“b”) сигналы - те, которые проходят через ионосферу.

Составьте таблицу от .mat файл:

load ionosphere
ionosphere = array2table(X);
ionosphere.Group = Y;

Выберите Validation Scheme

Выберите метод валидации, чтобы исследовать прогнозирующую точность подобранных моделей. Валидация оценивает производительность модели на новых данных по сравнению с обучающими данными и помогает вам выбрать лучшую модель. Валидация защищает от сверхподбора кривой. Выберите схему валидации перед обучением любые модели, так, чтобы можно было сравнить все модели на сеансе с помощью той же схемы валидации.

Совет

Попробуйте схему валидации по умолчанию и нажмите Start Session, чтобы продолжиться. Опция по умолчанию является 5-кратной перекрестной проверкой, которая защищает от сверхподбора кривой.

Если у вас есть большой набор данных, и учебные модели берет слишком долго перекрестную проверку использования, повторно импортируйте свои данные и попробуйте более быструю валидацию затяжки вместо этого.

  • Cross-Validation: Выберите много сгибов (или деления), чтобы разделить набор данных.

    Если вы выбираете сгибы k, то приложение:

    1. Делит данные в k непересекающиеся наборы или сгибы

    2. Для каждого сгиба валидации:

      1. Обучает модель с помощью наблюдений учебного сгиба (наблюдения не в сгибе валидации)

      2. Оценивает производительность модели с помощью данных сгиба валидации

    3. Вычисляет среднюю ошибку валидации по всем сгибам

    Этот метод дает хорошую оценку прогнозирующей точности итоговой модели, обученной со всеми данными. Это требует нескольких подгонок, но делает эффективное использование всех данных, таким образом, это рекомендуется для небольших наборов данных.

  • Holdout Validation: Выберите процент данных, чтобы использовать в качестве набора валидации. Приложение обучает модель на наборе обучающих данных и оценивает его эффективность с набором валидации. Модель, используемая для валидации, основана на только фрагменте данных, таким образом, Holdout Validation рекомендуется только для больших наборов данных. Итоговая модель обучена с полным набором данных.

  • Resubstitution Validation: Никакая защита от сверхподбора кривой. Приложение использует все данные для обучения и вычисляет коэффициент ошибок тех же данных. Без любых отдельных данных о валидации вы получаете нереалистичную оценку эффективности модели на новых данных. Таким образом, точность обучающей выборки, вероятно, будет нереалистично высока, и прогнозирующая точность, вероятно, будет ниже.

    Чтобы помочь вам постараться не сверхсоответствовать к обучающим данным, выберите другую схему валидации вместо этого.

Примечание

Схема валидации только влияет на способ, которым Classification Learner вычисляет метрики валидации. Итоговая модель всегда обучается с помощью полного набора данных.

Все модели классификации, которые вы обучаете после выбора данных, используют ту же схему валидации, которую вы выбираете в этом диалоговом окне. Можно сравнить все модели на сеансе с помощью той же схемы валидации.

Чтобы изменить выбор валидации и обучить новые модели, можно выбрать данные снова, но вы теряете любые обученные модели. Приложение предупреждает вас, что импортирование данных запускает новый сеанс. Сохраните любые обученные модели, вы хотите придерживаться рабочей области, и затем импортировать данные.

Для следующих моделей обучения шагов смотрите, Обучают Модели Классификации в Приложении Classification Learner.

Похожие темы