Выберите Data и Validation for Regression Problem

Выберите Data from Workspace

Совет

В Regression Learner таблицы являются самым легким способом работать с вашими данными, потому что они могут содержать числовой и пометить данные. Используйте Import Tool, чтобы принести ваши данные в рабочую область MATLAB® как таблица или использовать табличные функции, чтобы создать table от переменных рабочей области. См. Таблицы (MATLAB).

  1. Загрузите свои данные в рабочее пространство MATLAB.

    Переменные предикторы могут быть числовыми, категориальными, строка, или логические векторы, массивы ячеек из символьных векторов или символьные массивы. Переменная отклика должна быть вектором с плавающей точкой (одинарная или двойная точность).

    Объедините данные о предикторе в одну переменную, или таблица или матрица. Можно дополнительно объединить переменную данных предиктора и переменную отклика, или можно разделить их.

    Например, наборы данных, смотрите Данные В качестве примера для Регрессии.

  2. На вкладке Apps нажмите Regression Learner, чтобы открыть приложение.

  3. На вкладке Regression Learner, в разделе File, нажимают New Session > From Workspace.

  4. В диалоговом окне New Session, под Data Set Variable, выбирают таблицу или матрицу от переменных рабочей области.

    Если вы выбираете матрицу, выбираете, использовать ли строки или столбцы для наблюдений путем нажатия на переключатели.

  5. Под Response наблюдайте переменную отклика по умолчанию. Приложение пытается выбрать подходящую переменную отклика из переменной набора данных и обрабатывает все другие переменные как предикторы.

    Если вы хотите использовать различную переменную отклика, вы можете:

    • Используйте список, чтобы выбрать другую переменную из переменной набора данных.

    • Выберите отдельную переменную рабочей области путем нажатия на переключатель From workspace и затем выбора переменной из списка.

  6. Под Predictors добавьте или удалите предикторы с помощью флажков. Добавьте или удалите все предикторы путем нажатия на Add All или Remove All. Можно также добавить или удалить несколько предикторов путем выбора их в таблице, и затем нажатия на Add N или Remove N, где N является количеством выбранных предикторов. Кнопки Add All и Remove All превращаются в Add N и Remove N, когда вы выбираете несколько предикторов.

  7. Нажмите Start Session, чтобы принять схему валидации по умолчанию и продолжиться. Опция валидации по умолчанию является 5-кратной перекрестной проверкой, которая защищает от сверхподбора кривой.

    Совет

    Если у вас есть большой набор данных, вы можете хотеть переключиться на валидацию затяжки. Чтобы узнать больше, смотрите, Выбирают Validation Scheme.

Для следующих шагов смотрите, Обучают Модели Регрессии в Приложении Regression Learner.

Импорт данных из файла

  1. На вкладке Regression Learner, в разделе File, выбирают New Session> From File.

  2. Выберите тип файла в списке, таком как электронные таблицы, текстовые файлы или разделенные от запятой значения (.csv) файлы, или выбирают All Files, чтобы просмотреть другие типы файлов, такие как .dat.

Данные в качестве примера для регрессии

Чтобы начать использовать Regression Learner, попробуйте эти наборы данных в качестве примера.

ИмяРазмерОписание
АвтомобилиКоличество предикторов: 7
Количество наблюдений: 406
Ответ: MPG (мили на галлон)

Данные по различным моделям автомобилей, 1970–1982. Предскажите экономию топлива (в милях на галлон), или одна из других характеристик.

Для постепенного примера смотрите, Обучают Деревья Регрессии Используя Приложение Regression Learner.

Составьте таблицу от переменных в carbig.mat файл:

load carbig
cartable = table(Acceleration, Cylinders, Displacement,...
Horsepower, Model_Year, Weight, Origin, MPG);

Морское ушкоКоличество предикторов: 8
Количество наблюдений: 4177
Ответ: Rings

Измерения морского ушка (группа морских улиток). Предскажите возраст морских ушек, который тесно связан с количеством, звенит в их интерпретаторах.

Загрузите данные из Репозитория Машинного обучения UCI и сохраните его в вашей текущей папке. Считайте данные в таблицу и задайте имена переменных.

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data';
websave('abalone.csv',url);
varnames = {'Sex'; 'Length'; 'Diameter'; 'Height'; 'Whole_weight';...
'Shucked_weight'; 'Viscera_weight'; 'Shell_weight'; 'Rings'}; 
abalonetable = readtable('abalone.csv');
abalonetable.Properties.VariableNames = varnames;
БольницаКоличество предикторов: 5
Количество наблюдений: 100
Ответ: BloodPressure_2

Симулированные данные больницы. Предскажите кровяное давление пациентов.

Составьте таблицу от hospital переменная в hospital.mat файл:

load hospital.mat
hospitaltable = dataset2table(hospital(:,2:end-1));

Выберите Validation Scheme

Выберите метод валидации, чтобы исследовать прогнозирующую точность подобранных моделей. Валидация оценивает производительность модели на новых данных и помогает вам выбрать лучшую модель. Валидация защищает от сверхподбора кривой. Модель, которая слишком гибка и страдает от сверхподбора кривой, имеет худшую точность валидации. Выберите схему валидации перед обучением любые модели так, чтобы можно было сравнить все модели на сеансе с помощью той же схемы валидации.

Совет

Попробуйте схему валидации по умолчанию и нажмите Start Session, чтобы продолжиться. Опция по умолчанию является 5-кратной перекрестной проверкой, которая защищает от сверхподбора кривой.

Если у вас есть большой набор данных и обучение, модели берут слишком долго перекрестную проверку использования, повторно импортируйте свои данные и попробуйте более быструю валидацию затяжки вместо этого.

  • Cross-Validation: Выберите количество сгибов (или деления), чтобы разделить набор данных с помощью управления ползунком.

    Если вы выбираете сгибы k, то приложение:

    1. Делит данные в k непересекающиеся наборы или сгибы

    2. Для каждого сгиба:

      1. Обучает модель с помощью наблюдений из сгиба

      2. Оценивает использование производительности модели, окутывают данные

    3. Вычисляет среднюю тестовую ошибку по всем сгибам

    Этот метод дает хорошую оценку прогнозирующей точности итоговой модели, обученной с помощью полного набора данных. Метод требует нескольких подгонок, но делает эффективное использование всех данных, таким образом, это работает хорошо на небольшие наборы данных.

  • Holdout Validation: Выберите процент данных, чтобы использовать в качестве набора валидации с помощью управления ползунком. Приложение обучает модель на наборе обучающих данных и оценивает его производительность с набором валидации. Модель, используемая в валидации, основана на только фрагменте данных, таким образом, валидация затяжки подходит только для больших наборов данных. Итоговая модель обучена с помощью полного набора данных.

  • No Validation: Никакая защита от сверхподбора кривой. Приложение использует все данные в обучении и вычисляет коэффициент ошибок тех же данных. Без любых тестовых данных вы получаете нереалистичную оценку производительности модели на новых данных. Таким образом, точность обучающей выборки, вероятно, будет нереалистично высока, и прогнозирующая точность, вероятно, будет ниже.

    Чтобы помочь вам постараться не сверхсоответствовать к обучающим данным, выберите схему валидации вместо этого.

Примечание

Схема валидации только влияет на способ, которым Regression Learner вычисляет метрики валидации. Итоговая модель всегда обучается с помощью полного набора данных.

Все модели, которые вы обучаете после выбора данных, используют ту же схему валидации, которую вы выбираете в этом диалоговом окне. Можно сравнить все модели на сеансе с помощью той же схемы валидации.

Чтобы изменить выбор валидации и обучить новые модели, можно выбрать данные снова, но вы теряете любые обученные модели. Приложение предупреждает вас, что импортирование данных запускает новый сеанс. Сохраните любые обученные модели, вы хотите придерживаться рабочей области, и затем импортировать данные.

Для следующих моделей обучения шагов смотрите, Обучают Модели Регрессии в Приложении Regression Learner.

Похожие темы