kfoldEdge

Край классификации для наблюдений, не используемых для обучения

Синтаксис

e = kfoldEdge (CVMdl)

e = kfoldEdge (CVMdl, имя, значение)

Описание

e = kfoldEdge(CVMdl) возвращает перекрестно проверенные границы классификации, полученные перекрестно проверенной, двоичной, линейной моделью классификации CVMdl. То есть, для каждого раза, kfoldEdge оценивает край классификации для наблюдений, который он выдает, когда он тренируется с использованием всех других наблюдений.

e содержит край классификации для каждой силы регуляризации в моделях линейной классификации, которые содержат CVMdl.

пример

e = kfoldEdge(CVMdl,Name,Value) использует дополнительные параметры, указанные одним или несколькими Name,Value аргументы пары. Например, укажите, какие сгибы следует использовать для расчета кромки.

Входные аргументы

развернуть все

`CVMdl` - Модель перекрестной, двоичной, линейной классификации
`ClassificationPartitionedLinear` объект модели

Перекрестно проверенная, двоичная, линейная модель классификации, указанная как ClassificationPartitionedLinear объект модели. Можно создать ClassificationPartitionedLinear модель с использованием fitclinear и указание любого из аргументов пары «имя-значение» перекрестной проверки, например, CrossVal.

Для получения оценок kfoldEdge применяет те же данные, которые используются для перекрестной проверки модели линейной классификации (X и Y).

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

`'Folds'` - Сворачивание индексов для использования при прогнозировании классификации и оценки
`1:CVMdl.KFold` (по умолчанию) | числовой вектор положительных целых чисел

Сворачивание индексов для использования при прогнозировании классификационной оценки, указанной как пара, разделенная запятыми, состоящая из 'Folds' и числовой вектор положительных целых чисел. Элементы Folds должен быть в диапазоне от 1 через CVMdl.KFold.

Пример: 'Folds',[1 4 10]

Типы данных: single | double

`'Mode'` - Уровень агрегирования границ
`'average'` (по умолчанию) | `'individual'`

Уровень агрегирования краев, указанный как пара, разделенная запятыми, состоящая из 'Mode' и 'average' или 'individual'.

Стоимость	Описание
`'average'`	Возвращает границы классификации, усредненные по всем складкам
`'individual'`	Возвращает границы классификации для каждой гибки

Пример: 'Mode','individual'

Выходные аргументы

развернуть все

`e` - Перекрестно проверенные границы классификации
числовой скаляр | числовой вектор | числовая матрица

Перекрестно проверенные края классификации, возвращаемые в виде числового скаляра, вектора или матрицы.

Давайте L - количество сильных сторон регуляризации в перекрестно проверенных моделях (то есть L является numel(CVMdl.Trained{1}.Lambda)) и F - количество складок (хранящихся в CVMdl.KFold).

Если Mode является 'average', то e является 1-by-L вектор. e(j) - средний край классификации по всем складкам перекрестно проверенной модели, в которой используется сила регуляризации j.
В противном случае e является Fоколо-L матрица. e(i,j) является классификационным ребром для гибки i перекрестной проверенной модели, в которой используется сила регуляризации j.

Оценить e, kfoldEdge использует созданные данные CVMdl (см. X и Y).

Примеры

развернуть все

Оценить k-кратный край перекрестной проверки

Открыть сценарий в реальном времени

Загрузите набор данных NLP.

load nlpdata

X является разреженной матрицей данных предиктора, и Y является категориальным вектором меток класса. В данных имеется более двух классов.

Модели должны определять, содержится ли подсчет слов на веб-странице в документации Toolbox™ статистики и машинного обучения. Таким образом, определите метки, соответствующие страницам документации Toolbox™ статистики и машинного обучения.

Ystats = Y == 'stats';

Перекрестная проверка бинарной модели линейной классификации, которая может определить, находится ли подсчет слов на веб-странице документации из документации Toolbox™ статистики и машинного обучения.

rng(1); % For reproducibility 
CVMdl = fitclinear(X,Ystats,'CrossVal','on');

CVMdl является ClassificationPartitionedLinear модель. По умолчанию программное обеспечение реализует 10-кратную перекрестную проверку. Можно изменить количество сгибов с помощью 'KFold' аргумент пары имя-значение.

Оцените среднее значение не складываемых кромок.

e = kfoldEdge(CVMdl)

e = 8.1243

Кроме того, можно получить кромки по складке, указав пару имя-значение. 'Mode','individual' в kfoldEdge.

Выбор элемента с помощью k-образных кромок

Открыть сценарий в реальном времени

Одним из способов выбора элемента является сравнение k-образных кромок из нескольких моделей. Исходя исключительно из этого критерия, классификатор с наивысшим ребром является лучшим классификатором.

Загрузите набор данных NLP. Выполните предварительную обработку данных, как в разделе Оценка k-кратного края перекрестной проверки.

load nlpdata
Ystats = Y == 'stats';
X = X';

Создайте два набора данных:

fullX содержит все предикторы.
partX содержит 1/2 предикторов, выбранных случайным образом.

rng(1); % For reproducibility
p = size(X,1); % Number of predictors
halfPredIdx = randsample(p,ceil(0.5*p));
fullX = X;
partX = X(halfPredIdx,:);

Перекрестная проверка двух бинарных, линейных моделей классификации: одна, которая использует все предикторы, и одна, которая использует половину предикторов. Оптимизируйте целевую функцию с помощью SpaRSA и укажите, что наблюдения соответствуют столбцам.

CVMdl = fitclinear(fullX,Ystats,'CrossVal','on','Solver','sparsa',...
    'ObservationsIn','columns');
PCVMdl = fitclinear(partX,Ystats,'CrossVal','on','Solver','sparsa',...
    'ObservationsIn','columns');

CVMdl и PCVMdl являются ClassificationPartitionedLinear модели.

Оцените k-кратное ребро для каждого классификатора.

fullEdge = kfoldEdge(CVMdl)

fullEdge = 16.5629

partEdge = kfoldEdge(PCVMdl)

partEdge = 13.9030

Основываясь на k-кратных ребрах, классификатор, который использует все предикторы, является лучшей моделью.

Найти хороший штраф Лассо с помощью k-fold края

Открыть сценарий в реальном времени

Чтобы определить хорошую силу лассо-штрафа для модели линейной классификации, которая использует учащегося логистической регрессии, сравните k-кратные края.

load nlpdata
Ystats = Y == 'stats';
X = X';

Создайте набор из 11 логарифмически разнесенных уровней регуляции от $^{10-8}$ до $^{101}$ .

Lambda = logspace(-8,1,11);

Перекрестная проверка двоичной модели линейной классификации с использованием пятикратной перекрестной проверки, которая использует каждую из сильных сторон регуляризации. Оптимизируйте целевую функцию с помощью SpaRSA. Понизить допуск на градиенте целевой функции до 1e-8.

rng(10); % For reproducibility
CVMdl = fitclinear(X,Ystats,'ObservationsIn','columns','KFold',5,...
    'Learner','logistic','Solver','sparsa','Regularization','lasso',...
    'Lambda',Lambda,'GradientTolerance',1e-8)

CVMdl = 
  ClassificationPartitionedLinear
    CrossValidatedModel: 'Linear'
           ResponseName: 'Y'
        NumObservations: 31572
                  KFold: 5
              Partition: [1x1 cvpartition]
             ClassNames: [0 1]
         ScoreTransform: 'none'


  Properties, Methods

CVMdl является ClassificationPartitionedLinear модель. Поскольку fitclinear реализует пятикратную перекрестную проверку, CVMdl содержит 5 ClassificationLinear модели, которые программное обеспечение обучает на каждой складке.

Оцените края для каждой складки и силы регуляризации.

eFolds = kfoldEdge(CVMdl,'Mode','individual')

eFolds = 5×11

    0.9958    0.9958    0.9958    0.9958    0.9958    0.9925    0.9768    0.9231    0.8468    0.8127    0.8127
    0.9991    0.9991    0.9991    0.9991    0.9991    0.9939    0.9779    0.9183    0.8263    0.8128    0.8128
    0.9992    0.9992    0.9992    0.9992    0.9992    0.9942    0.9780    0.9183    0.8254    0.8128    0.8128
    0.9974    0.9974    0.9974    0.9974    0.9974    0.9931    0.9773    0.9191    0.8477    0.8130    0.8130
    0.9977    0.9977    0.9977    0.9977    0.9977    0.9942    0.9782    0.9185    0.8380    0.8127    0.8127

eFolds представляет собой матрицу рёбер 5 на 11. Строки соответствуют складкам, а столбцы соответствуют прочностям регуляризации в Lambda. Вы можете использовать eFolds для выявления плохо работающих складок, то есть необычно низких кромок.

Оцените среднюю кромку по всем складкам для каждой силы регуляризации.

e = kfoldEdge(CVMdl)

e = 1×11

    0.9978    0.9978    0.9978    0.9978    0.9978    0.9936    0.9776    0.9195    0.8368    0.8128    0.8128

Определите, насколько хорошо модели обобщаются, построив график средних значений 5-кратного края для каждой силы регуляризации. Определите силу регуляризации, которая максимизирует пятикратную кромку по сетке.

figure;
plot(log10(Lambda),log10(e),'-o')
[~, maxEIdx] = max(e);
maxLambda = Lambda(maxEIdx);
hold on
plot(log10(maxLambda),log10(e(maxEIdx)),'ro');
ylabel('log_{10} 5-fold edge')
xlabel('log_{10} Lambda')
legend('Edge','Max edge')
hold off

Figure contains an axes. The axes contains 2 objects of type line. These objects represent Edge, Max edge.

Несколько значений Lambda получить такие же высокие края. Более высокие значения лямбда приводят к предикторной переменной разреженности, которая является хорошим качеством классификатора.

Выберите силу регуляризации, которая возникает непосредственно перед тем, как край начнет уменьшаться.

LambdaFinal = Lambda(5);

Обучение модели линейной классификации с использованием всего набора данных и определение силы регуляризации LambdaFinal.

MdlFinal = fitclinear(X,Ystats,'ObservationsIn','columns',...
    'Learner','logistic','Solver','sparsa','Regularization','lasso',...
    'Lambda',LambdaFinal);

Чтобы оценить метки для новых наблюдений, передайте MdlFinal и новые данные для predict.

Подробнее

развернуть все

Край классификации

Край классификации - это средневзвешенное значение полей классификации.

Один из способов выбора из нескольких классификаторов, например, выбор элемента, - выбор классификатора, который дает наибольший край.

Маржа классификации

Поле классификации для двоичной классификации является для каждого наблюдения разницей между оценкой классификации для истинного класса и оценкой классификации для ложного класса.

Программа определяет поле классификации для двоичной классификации как

$m = 2yf ($ x).

x - это наблюдение. Если истинная метка x является положительным классом, то y равно 1, а в противном случае -1. f (x) - показатель классификации положительного класса для наблюдения x. Обычно запас классификации определяется как m = yf (x).

Если поля находятся в одной шкале, то они служат мерой достоверности классификации. Среди нескольких классификаторов лучше те, которые дают большую маржу.

Оценка классификации

Для моделей линейной классификации необработанный показатель классификации для классификации наблюдения x, вектора строки, в положительный класс определяется как

$_{fj} (x) =_{}_{xβj}$ + bj.

Для модели с силой регуляризации j $_{βj}$ - оцененный вектор-столбец коэффициентов (свойство модели Beta(:,j)) и $_{bj}$ - оценочное скалярное смещение (свойство модели Bias(j)).

Необработанный показатель классификации для классификации x в отрицательный класс равен -f (x). Программа классифицирует наблюдения в класс, который дает положительную оценку.

Если модель линейной классификации состоит из учащихся с логистической регрессией, то программное обеспечение применяет 'logit' преобразование баллов в необработанные оценки классификации (см. ScoreTransform).

См. также

ClassificationLinear | ClassificationPartitionedLinear | edge | kfoldMargin | kfoldPredict

Представлен в R2016a

Документация

kfoldEdge

Синтаксис

Описание

Входные аргументы

`CVMdl` - Модель перекрестной, двоичной, линейной классификации
`ClassificationPartitionedLinear` объект модели

Аргументы пары «имя-значение»

`'Folds'` - Сворачивание индексов для использования при прогнозировании классификации и оценки
`1:CVMdl.KFold` (по умолчанию) | числовой вектор положительных целых чисел

`'Mode'` - Уровень агрегирования границ
`'average'` (по умолчанию) | `'individual'`

Выходные аргументы

`e` - Перекрестно проверенные границы классификации
числовой скаляр | числовой вектор | числовая матрица

Примеры

Оценить k-кратный край перекрестной проверки

Выбор элемента с помощью k-образных кромок

Найти хороший штраф Лассо с помощью k-fold края

Подробнее

Край классификации

Маржа классификации

Оценка классификации

См. также

Документация по инструментам для статистического и машинного обучения

Поддержка

Документация

kfoldEdge

Синтаксис

Описание

Входные аргументы

CVMdl - Модель перекрестной, двоичной, линейной классификации ClassificationPartitionedLinear объект модели

Аргументы пары «имя-значение»

'Folds' - Сворачивание индексов для использования при прогнозировании классификации и оценки 1:CVMdl.KFold (по умолчанию) | числовой вектор положительных целых чисел

'Mode' - Уровень агрегирования границ 'average' (по умолчанию) | 'individual'

Выходные аргументы

e - Перекрестно проверенные границы классификации числовой скаляр | числовой вектор | числовая матрица

Примеры

Оценить k-кратный край перекрестной проверки

Выбор элемента с помощью k-образных кромок

Найти хороший штраф Лассо с помощью k-fold края

Подробнее

Край классификации

Маржа классификации

Оценка классификации

См. также

Документация по инструментам для статистического и машинного обучения

Поддержка

`CVMdl` - Модель перекрестной, двоичной, линейной классификации
`ClassificationPartitionedLinear` объект модели

`'Folds'` - Сворачивание индексов для использования при прогнозировании классификации и оценки
`1:CVMdl.KFold` (по умолчанию) | числовой вектор положительных целых чисел

`'Mode'` - Уровень агрегирования границ
`'average'` (по умолчанию) | `'individual'`

`e` - Перекрестно проверенные границы классификации
числовой скаляр | числовой вектор | числовая матрица