screenpredictors

Просмотрите предикторы карты показателей кредита для прогнозирующего значения

Описание

пример

metric_table = screenpredictors(data) возвращает выходную переменную, metric_table, MATLAB® таблица, содержащая вычисленные значения для нескольких мер прогнозирующей степени для каждой переменной предиктора в data. Используйте screenpredictors выполнять функцию шага предварительной обработки в рабочем процессе моделирования карты показателей кредита, чтобы уменьшить количество переменных предиктора перед созданием карты показателей кредита с помощью creditscorecard функция из Financial Toolbox™.

пример

metric_table = screenpredictors(___,Name,Value) задает опции, использующие один или несколько аргументы пары "имя-значение" в дополнение к входным параметрам в предыдущем синтаксисе.

Примеры

свернуть все

Уменьшите количество переменных предиктора путем скрининга предикторов перед созданием карты результатов кредита.

Используйте CreditCardData.mat файл для загрузки данных (с помощью набора данных из Refaat 2011).

load CreditCardData.mat

Определите 'IDVar' и 'ResponseVar'.

idvar = 'CustID';
responsevar = 'status';

Использование screenpredictors вычислить метрики скрининга предиктора. Функция возвращает таблицу, содержащую значения метрик. Каждая строка таблицы соответствует предиктору из данных входов таблицы.

metric_table = screenpredictors(data,'IDVar', idvar,'ResponseVar', responsevar)
metric_table=9×7 table
                   InfoValue    AccuracyRatio     AUROC     Entropy     Gini      Chi2PValue    PercentMissing
                   _________    _____________    _______    _______    _______    __________    ______________

    CustAge          0.18863       0.17095       0.58547    0.88729    0.42626    0.00074524          0       
    TmWBank          0.15719       0.13612       0.56806    0.89167    0.42864     0.0054591          0       
    CustIncome       0.15572       0.17758       0.58879      0.891    0.42731     0.0018428          0       
    TmAtAddress     0.094574      0.010421       0.50521    0.90089    0.43377         0.182          0       
    UtilRate        0.075086      0.035914       0.51796    0.90405    0.43575       0.45546          0       
    AMBalance        0.07159      0.087142       0.54357    0.90446    0.43592       0.48528          0       
    EmpStatus       0.048038       0.10886       0.55443    0.90814     0.4381    0.00037823          0       
    OtherCC         0.014301      0.044459       0.52223    0.91347    0.44132      0.047616          0       
    ResStatus      0.0097738       0.05039        0.5252    0.91422    0.44182       0.27875          0       

metric_table = sortrows(metric_table,'AccuracyRatio','descend')
metric_table=9×7 table
                   InfoValue    AccuracyRatio     AUROC     Entropy     Gini      Chi2PValue    PercentMissing
                   _________    _____________    _______    _______    _______    __________    ______________

    CustIncome       0.15572       0.17758       0.58879      0.891    0.42731     0.0018428          0       
    CustAge          0.18863       0.17095       0.58547    0.88729    0.42626    0.00074524          0       
    TmWBank          0.15719       0.13612       0.56806    0.89167    0.42864     0.0054591          0       
    EmpStatus       0.048038       0.10886       0.55443    0.90814     0.4381    0.00037823          0       
    AMBalance        0.07159      0.087142       0.54357    0.90446    0.43592       0.48528          0       
    ResStatus      0.0097738       0.05039        0.5252    0.91422    0.44182       0.27875          0       
    OtherCC         0.014301      0.044459       0.52223    0.91347    0.44132      0.047616          0       
    UtilRate        0.075086      0.035914       0.51796    0.90405    0.43575       0.45546          0       
    TmAtAddress     0.094574      0.010421       0.50521    0.90089    0.43377         0.182          0       

На основе AccuracyRatio metric, выберите верхние предикторы, которые будут использоваться при создании creditscorecard объект.

varlist = metric_table.Row(metric_table.AccuracyRatio > 0.09)
varlist = 4x1 cell
    {'CustIncome'}
    {'CustAge'   }
    {'TmWBank'   }
    {'EmpStatus' }

Использование creditscorecard для создания createscorecard объект, основанный только на «экранированных» предикторах.

sc = creditscorecard(data,'IDVar', idvar,'ResponseVar', responsevar, 'PredictorVars', varlist)
sc = 
  creditscorecard with properties:

                GoodLabel: 0
              ResponseVar: 'status'
               WeightsVar: ''
                 VarNames: {1x11 cell}
        NumericPredictors: {'CustAge'  'CustIncome'  'TmWBank'}
    CategoricalPredictors: {'EmpStatus'}
           BinMissingData: 0
                    IDVar: 'CustID'
            PredictorVars: {'CustAge'  'EmpStatus'  'CustIncome'  'TmWBank'}
                     Data: [1200x11 table]

Входные параметры

свернуть все

Данные для creditscorecard объект, заданный как таблица MATLAB, длинная таблица или длинное расписание, где каждый столбец данных может быть любым из следующих типов данных:

  • Числовой

  • Логичный

  • Массив ячеек из символьных векторов

  • Символьный массив

  • Категоричный

  • Строка

Типы данных: table

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})

Имя переменной идентификатора, заданное как разделенная разделенными запятой парами, состоящая из 'IDVar' и вектор символов с учетом регистра. The 'IDVar' данные могут быть порядковыми номерами или номерами социального страхования. Путем определения 'IDVar'можно легко опустить переменную идентификатора из переменных предиктора.

Типы данных: char

Имя переменной отклика для индикатора «Хорошо» или «Плохо», заданное как разделенная разделенными запятой парами, состоящая из 'ResponseVar' и вектор символов с учетом регистра. Данные переменной отклика должны быть двоичными.

Если не указано, 'ResponseVar' устанавливается в последний столбец входа data по умолчанию.

Типы данных: char

Имена переменных предиктора, заданные как разделенная разделенными запятой парами, состоящая из 'PredictorVars' и чувствительный к регистру массив ячеек из векторов символов или строковых массивов. По умолчанию, когда вы создаете creditscorecard объект, все переменные являются предикторами, кроме IDVar и ResponseVar. Любое имя, которое вы задаете используя 'PredictorVars' должен отличаться от IDVar и ResponseVar имена.

Типы данных: cell | string

Имя переменной весов, заданное как разделенная разделенными запятой парами, состоящая из 'WeightsVar' и вектор символов с учетом регистра, чтобы указать, какое имя столбца в data таблица содержит веса строк.

Если вы не задаете 'WeightsVar' когда вы создаете creditscorecard объект, тогда функция использует единичные веса в качестве весов наблюдений.

Типы данных: char

Количество (одинаковых частот) интервалов для числовых предикторов, заданное как разделенная разделенными запятой парами, состоящая из 'NumBins' и скалярным числом.

Типы данных: double

Малый сдвиг в таблицах частот, которые содержат нулевые значения, задается как разделенная разделенными запятой парами, состоящая из 'FrequencyShift' и скаляр число со значением между 0 и 1.

Если таблица частот предиктора содержит любые «чистые» интервалы (содержащие все товары или все бады) после того, как вы складываете данные с помощью autobinning, затем функция добавляет 'FrequencyShift' значение для всех интервалов в таблице. Чтобы избежать каких-либо возмущений, установите 'FrequencyShift' на 0.

Типы данных: double

Выходные аргументы

свернуть все

Вычисленные значения для метрик скрининга предиктора, возвращенные как таблица. Каждая строка таблицы соответствует предиктору из данных входов таблицы. Столбцы таблицы содержат вычисленные значения для следующих метрик:

  • 'InfoValue' - Значение информации. Эта метрика измеряет силу предиктора в модели аппроксимации путем определения отклонения между распределениями "Goods" и "Bads".

  • 'AccuracyRatio' - Коэффициент точности.

  • 'AUROC' - Площадь под кривой ROC.

  • 'Entropy' - Энтропия. Эта метрика измеряет уровень непредсказуемости в интервалах. Можно использовать метрику энтропии, чтобы подтвердить модель риска.

  • 'Gini' - Джини. Эта метрика измеряет статистическую дисперсию или неравенство в выборке данных.

  • 'Chi2PValue' - Chi-квадрат p -значение. Эта метрика вычисляется из хи-квадратной метрики и является мерой статистического различия и независимости между группами.

  • 'PercentMissing' - Процент отсутствующих значений в предикторе. Эта метрика выражена в десятичной форме.

Расширенные возможности

Введенный в R2019a