предсказать

Класс: RegressionLinear

Предскажите ответ модели линейной регрессии

Синтаксис

YHat = predict(Mdl,X)
YHat = predict(Mdl,X,Name,Value)

Описание

пример

YHat = predict(Mdl,X) возвращает предсказанные ответы для каждого наблюдения в данных о предикторе X на основе обученной модели Mdl линейной регрессии. YHat содержит ответы для каждой силы регуляризации в Mdl.

пример

YHat = predict(Mdl,X,Name,Value) возвращает предсказанные ответы с дополнительными опциями, заданными одним или несколькими аргументами пары Name,Value. Например, укажите, что столбцы в данных о предикторе соответствуют наблюдениям.

Входные параметры

развернуть все

Модель линейной регрессии, заданная как объект модели RegressionLinear. Можно создать объект модели RegressionLinear с помощью fitrlinear.

Данные о предикторе, заданные как n-by-p полная или разреженная матрица. Эта ориентация X указывает, что строки соответствуют отдельным наблюдениям, и столбцы соответствуют отдельным переменным прогноза.

Примечание

Если вы ориентируете свою матрицу предиктора так, чтобы наблюдения соответствовали столбцам и задали 'ObservationsIn','columns', то вы можете испытать значительное сокращение во время вычисления.

Длина Y и количество наблюдений в X должны быть равными.

Типы данных: single | double

Аргументы в виде пар имя-значение

Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Размерность наблюдения данных о предикторе, заданная как пара, разделенная запятой, состоящая из 'ObservationsIn' и 'columns' или 'rows'.

Примечание

Если вы ориентируете свою матрицу предиктора так, чтобы наблюдения соответствовали столбцам и задали 'ObservationsIn','columns', то вы можете испытать значительное сокращение во время выполнения оптимизации.

Выходные аргументы

развернуть все

Предсказанные ответы, возвращенные как n-by-L числовая матрица. n является количеством наблюдений в X, и L является количеством сильных мест регуляризации в Mdl.Lambda. YHat(i,j) является ответом для наблюдения i с помощью модели линейной регрессии, которая имеет силу регуляризации Mdl.Lambda(j).

Предсказанный ответ с помощью модели с силой регуляризации j y^j=xβj+bj.

  • x является наблюдением от матрицы данных предиктора X и является вектором - строкой.

  • βj предполагаемый вектор-столбец коэффициентов. Программное обеспечение хранит этот вектор в Mdl.Beta(:,j).

  • bj предполагаемое, скалярное смещение, которое программное обеспечение хранит в Mdl.Bias(j).

Примеры

развернуть все

Моделируйте 10 000 наблюдений из этой модели

y=x100+2x200+e.

  • X=x1,...,x1000 10000 1000 разреженная матрица с 10%-ми ненулевыми стандартными нормальными элементами.

  • e является случайной нормальной ошибкой со средним значением 0 и стандартным отклонением 0.3.

rng(1) % For reproducibility
n = 1e4;
d = 1e3;
nz = 0.1;
X = sprandn(n,d,nz);
Y = X(:,100) + 2*X(:,200) + 0.3*randn(n,1);

Обучите модель линейной регрессии. Зарезервируйте 30% наблюдений как выборка затяжки.

CVMdl = fitrlinear(X,Y,'Holdout',0.3);
Mdl = CVMdl.Trained{1}
Mdl = 
  RegressionLinear
         ResponseName: 'Y'
    ResponseTransform: 'none'
                 Beta: [1000x1 double]
                 Bias: -0.0066
               Lambda: 1.4286e-04
              Learner: 'svm'


  Properties, Methods

CVMdl является моделью RegressionPartitionedLinear. Это содержит свойство Trained, которое является массивом ячеек 1 на 1, содержащим модель RegressionLinear, что программное обеспечение обучило использование набора обучающих данных.

Извлеките обучение и тестовые данные из определения раздела.

trainIdx = training(CVMdl.Partition);
testIdx = test(CVMdl.Partition);

Предскажите обучение - и демонстрационные тестом ответы.

yHatTrain = predict(Mdl,X(trainIdx,:));
yHatTest = predict(Mdl,X(testIdx,:));

Поскольку существует одна сила регуляризации в Mdl, yHatTrain и yHatTest являются числовыми векторами.

Предскажите ответы от лучшего выполнения, модель линейной регрессии, которая использует штраф лассо и наименьшие квадраты.

Моделируйте 10 000 наблюдений, когда в Предсказывают Демонстрационные Тестом Ответы.

rng(1) % For reproducibility
n = 1e4;
d = 1e3;
nz = 0.1;
X = sprandn(n,d,nz);
Y = X(:,100) + 2*X(:,200) + 0.3*randn(n,1);

Создайте набор 15 логарифмически распределенных сильных мест регуляризации от 10-5 через 10-1.

Lambda = logspace(-5,-1,15);

Перекрестный подтвердите модели. Чтобы увеличить скорость выполнения, транспонируйте данные о предикторе и укажите, что наблюдения находятся в столбцах. Оптимизируйте использование целевой функции SpaRSA.

X = X'; 
CVMdl = fitrlinear(X,Y,'ObservationsIn','columns','KFold',5,'Lambda',Lambda,...
    'Learner','leastsquares','Solver','sparsa','Regularization','lasso');

numCLModels = numel(CVMdl.Trained)
numCLModels = 5

CVMdl является моделью RegressionPartitionedLinear. Поскольку fitrlinear реализует 5-кратную перекрестную проверку, CVMdl содержит 5 моделей RegressionLinear, которые программное обеспечение обучает на каждом сгибе.

Отобразите первую обученную модель линейной регрессии.

Mdl1 = CVMdl.Trained{1}
Mdl1 = 
  RegressionLinear
         ResponseName: 'Y'
    ResponseTransform: 'none'
                 Beta: [1000x15 double]
                 Bias: [1x15 double]
               Lambda: [1x15 double]
              Learner: 'leastsquares'


  Properties, Methods

Mdl1 является объектом модели RegressionLinear. fitrlinear создал Mdl1 по образованию на первых четырех сгибах. Поскольку Lambda является последовательностью сильных мест регуляризации, можно думать о Mdl1 как о 11 моделях, один для каждой силы регуляризации в Lambda.

Оцените перекрестный подтвержденный MSE.

mse = kfoldLoss(CVMdl);

Более высокие значения Lambda приводят к разреженности переменной прогноза, которая является хорошим качеством модели регрессии. Для каждой силы регуляризации обучите модель линейной регрессии использование целого набора данных и тех же опций как тогда, когда вы перекрестный подтвержденный модели. Определите количество ненулевых коэффициентов на модель.

Mdl = fitrlinear(X,Y,'ObservationsIn','columns','Lambda',Lambda,...
    'Learner','leastsquares','Solver','sparsa','Regularization','lasso');
numNZCoeff = sum(Mdl.Beta~=0);

В той же фигуре постройте перекрестный подтвержденный MSE и частоту ненулевых коэффициентов для каждой силы регуляризации. Постройте все переменные на логарифмической шкале.

figure;
[h,hL1,hL2] = plotyy(log10(Lambda),log10(mse),...
    log10(Lambda),log10(numNZCoeff)); 
hL1.Marker = 'o';
hL2.Marker = 'o';
ylabel(h(1),'log_{10} MSE')
ylabel(h(2),'log_{10} nonzero-coefficient frequency')
xlabel('log_{10} Lambda')
hold off

Выберите индекс силы регуляризации, которая балансирует разреженность переменной прогноза и низкий MSE (например, Lambda(10)).

idxFinal = 10;

Извлеките модель с соответствием минимальному MSE.

MdlFinal = selectModels(Mdl,idxFinal)
MdlFinal = 
  RegressionLinear
         ResponseName: 'Y'
    ResponseTransform: 'none'
                 Beta: [1000x1 double]
                 Bias: -0.0050
               Lambda: 0.0037
              Learner: 'leastsquares'


  Properties, Methods

idxNZCoeff = find(MdlFinal.Beta~=0)
idxNZCoeff = 2×1

   100
   200

EstCoeff = Mdl.Beta(idxNZCoeff)
EstCoeff = 2×1

    1.0051
    1.9965

MdlFinal является моделью RegressionLinear с одной силой регуляризации. Ненулевой содействующий EstCoeff близко к коэффициентам, которые моделировали данные.

Моделируйте 10 новых наблюдений и предскажите соответствующие ответы с помощью лучше всего выполняющей модели.

XNew = sprandn(d,10,nz);
YHat = predict(MdlFinal,XNew,'ObservationsIn','columns');

Расширенные возможности

Смотрите также

|

Введенный в R2016a