exponenta event banner

bindata

Привязанные переменные предиктора

Описание

пример

bdata = bindata(sc) привязанные переменные предиктора, возвращенные в виде таблицы. Это таблица того же размера, что и входные данные, но только предикторы, указанные в creditscorecard объект PredictorVars свойства привязаны, а оставшиеся неизменны.

пример

bdata = bindata(sc,data) возвращает таблицу связанных переменных предиктора. bindata возвращает таблицу того же размера, что и creditscorecard данные, но только предикторы, указанные в creditscorecard объект PredictorVars свойства привязаны, а оставшиеся неизменны.

пример

bdata = bindata(sc,Name,Value) привязанные переменные предиктора, возвращенные в виде таблицы с использованием необязательных аргументов пары имя-значение. Это таблица того же размера, что и входные данные, но только предикторы, указанные в creditscorecard объект PredictorVars свойства привязаны, а оставшиеся неизменны.

Примеры

свернуть все

В этом примере показано, как использовать bindata функция для простого хранения или дискретизации данных.

Предположим, диапазоны ячеек

  • 'от 0 до 30'

  • 'От 31 до 50'

  • '51 и выше'

определяются для переменной возраста (вручную или автоматически). Если указана точка данных с возрастом 41, то для этой точки данных необходимо поместить ее в ячейку на 41 лет, которая является второй ячейкой, или в ячейку '31-50'. Затем Binning - это отображение исходных данных в дискретные группы или ячейки. В этом примере можно сказать, что 41-летний ребенок отображается в ячейку с номером 2 или что он привязан к категории «от 31 до 50». Если известно значение Weight of Evidence (WOE) для каждой из трех ячеек, можно также заменить точку данных 41 значением WOE, соответствующим второй ячейке. bindata поддерживает только что упомянутые три формата объединения:

  • Номер ячейки (где 'OutputType' аргумент пары имя-значение имеет значение 'BinNumber'); это опция по умолчанию, и в этом случае 41 отображается на складское место 2.

  • Категориальный (где 'OutputType' аргумент пары имя-значение имеет значение 'Categorical'); в этом случае 41 сопоставляется с ячейкой «от 31 до 50».

  • Значение WOE (где 'OutputType' аргумент пары имя-значение имеет значение 'WOE'); в этом случае 41 отображается на значение WOE ячейки 2.

Создать creditscorecard с использованием CreditCardData.mat для загрузки файла data (с использованием набора данных из Refaat 2011). Используйте 'IDVar' аргумент, указывающий, что 'CustID' содержит информацию об идентификаторе и не должен быть включен в качестве предикторной переменной.

load CreditCardData 
sc = creditscorecard(data,'IDVar','CustID')
sc = 
  creditscorecard with properties:

                GoodLabel: 0
              ResponseVar: 'status'
               WeightsVar: ''
                 VarNames: {1x11 cell}
        NumericPredictors: {1x6 cell}
    CategoricalPredictors: {'ResStatus'  'EmpStatus'  'OtherCC'}
           BinMissingData: 0
                    IDVar: 'CustID'
            PredictorVars: {1x9 cell}
                     Data: [1200x11 table]

Выполните автоматическое binning.

sc = autobinning(sc);

Показать сведения о ячейке для 'CustAge'.

bininfo(sc,'CustAge')
ans=8×6 table
         Bin         Good    Bad     Odds        WOE       InfoValue
    _____________    ____    ___    ______    _________    _________

    {'[-Inf,33)'}     70      53    1.3208     -0.42622     0.019746
    {'[33,37)'  }     64      47    1.3617     -0.39568     0.015308
    {'[37,40)'  }     73      47    1.5532     -0.26411    0.0072573
    {'[40,46)'  }    174      94    1.8511    -0.088658     0.001781
    {'[46,48)'  }     61      25      2.44      0.18758    0.0024372
    {'[48,58)'  }    263     105    2.5048      0.21378     0.013476
    {'[58,Inf]' }     98      26    3.7692      0.62245       0.0352
    {'Totals'   }    803     397    2.0227          NaN     0.095205

Это первые 10 возрастных значений в исходных данных, используемых для создания creditscorecard объект.

data(1:10,'CustAge')
ans=10×1 table
    CustAge
    _______

      53   
      61   
      47   
      50   
      68   
      65   
      34   
      50   
      50   
      49   

Данные карты показателей складских мест в номера складских мест (поведение по умолчанию).

bdata = bindata(sc);

Согласно информации ячейки, первый возраст должен быть отображен в четвертую ячейку, второй возраст в пятую ячейку и т.д. Это первые 10 binned age, в формате bin-number.

bdata(1:10,'CustAge')
ans=10×1 table
    CustAge
    _______

       6   
       7   
       5   
       6   
       7   
       7   
       2   
       6   
       6   
       6   

Складируйте данные карты показателей и просмотрите их метки. Для этого установите bindata аргумент пары имя-значение для 'OutputType' кому 'Categorical'.

bdata = bindata(sc,'OutputType','Categorical');

Это первые 10 binned age, в категориальном формате.

bdata(1:10,'CustAge')
ans=10×1 table
    CustAge 
    ________

    [48,58) 
    [58,Inf]
    [46,48) 
    [48,58) 
    [58,Inf]
    [58,Inf]
    [33,37) 
    [48,58) 
    [48,58) 
    [48,58) 

Преобразуйте данные карты показателей в значения WOE. Для этого установите bindata аргумент пары имя-значение для 'OutputType' кому 'WOE'.

bdata = bindata(sc,'OutputType','WOE');

Это первые 10 бинированных периодов в формате WOE. Возраст сопоставляется со значениями WOE, которые отображаются на внутреннем экране с помощью bininfo функция.

bdata(1:10,'CustAge')
ans=10×1 table
    CustAge 
    ________

     0.21378
     0.62245
     0.18758
     0.21378
     0.62245
     0.62245
    -0.39568
     0.21378
     0.21378
     0.21378

В этом примере показано, как использовать bindata является необязательным вводом данных в ячейку. Если это не предусмотрено, bindata складские места creditscorecard данные обучения. Однако, если необходимо связать другой набор данных, например, некоторые «тестовые» данные, их можно передать в bindata в качестве дополнительного ввода.

Создать creditscorecard с использованием CreditCardData.mat для загрузки файла data (с использованием набора данных из Refaat 2011). Используйте 'IDVar' аргумент, указывающий, что 'CustID' содержит информацию об идентификаторе и не должен быть включен в качестве предикторной переменной.

load CreditCardData 
sc = creditscorecard(data,'IDVar','CustID')
sc = 
  creditscorecard with properties:

                GoodLabel: 0
              ResponseVar: 'status'
               WeightsVar: ''
                 VarNames: {1x11 cell}
        NumericPredictors: {1x6 cell}
    CategoricalPredictors: {'ResStatus'  'EmpStatus'  'OtherCC'}
           BinMissingData: 0
                    IDVar: 'CustID'
            PredictorVars: {1x9 cell}
                     Data: [1200x11 table]

Выполните автоматическое binning.

sc = autobinning(sc);

Показать сведения о ячейке для 'CustAge'.

bininfo(sc,'CustAge')
ans=8×6 table
         Bin         Good    Bad     Odds        WOE       InfoValue
    _____________    ____    ___    ______    _________    _________

    {'[-Inf,33)'}     70      53    1.3208     -0.42622     0.019746
    {'[33,37)'  }     64      47    1.3617     -0.39568     0.015308
    {'[37,40)'  }     73      47    1.5532     -0.26411    0.0072573
    {'[40,46)'  }    174      94    1.8511    -0.088658     0.001781
    {'[46,48)'  }     61      25      2.44      0.18758    0.0024372
    {'[48,58)'  }    263     105    2.5048      0.21378     0.013476
    {'[58,Inf]' }     98      26    3.7692      0.62245       0.0352
    {'Totals'   }    803     397    2.0227          NaN     0.095205

Для иллюстрации возьмите несколько строк из исходных данных в качестве «тестовых» данных и выведите первые 10 возрастных значений в тестовых данных.

tdata = data(101:110,:);
tdata(1:10,'CustAge')
ans=10×1 table
    CustAge
    _______

      34   
      59   
      64   
      61   
      28   
      65   
      55   
      37   
      49   
      51   

Преобразуйте тестовые данные в значения WOE. Для этого установите bindata аргумент пары имя-значение для 'OutputType' кому 'WOE', прохождение тестовых данных (tdata) в качестве дополнительного ввода.

bdata = bindata(sc,tdata,'OutputType','WOE')
bdata=10×11 table
    CustID    CustAge     TmAtAddress    ResStatus    EmpStatus    CustIncome    TmWBank     OtherCC     AMBalance    UtilRate    status
    ______    ________    ___________    _________    _________    __________    ________    ________    _________    ________    ______

     101      -0.39568     -0.087767     -0.095564      0.2418     -0.011271      0.76889    0.053364    -0.11274     0.048576      0   
     102       0.62245       0.14288      0.019329    -0.19947       0.20579     -0.13107    -0.26832    -0.11274     0.048576      1   
     103       0.62245       0.02263      0.019329      0.2418       0.47972     -0.12109    0.053364     0.24418     0.092164      0   
     104       0.62245       0.02263     -0.095564      0.2418       0.47972     -0.12109    0.053364     0.24418     0.048576      0   
     105      -0.42622       0.02263      0.019329      0.2418      -0.06843      0.76889    0.053364    -0.11274     0.092164      0   
     106       0.62245       0.02263      0.019329    -0.19947       0.20579     -0.13107    0.053364    -0.11274     -0.22899      0   
     107       0.21378     -0.087767     -0.095564      0.2418       0.47972      0.26704    0.053364    -0.11274     0.048576      0   
     108      -0.26411     -0.087767      0.019329    -0.19947      -0.29217     -0.13107    0.053364    -0.11274     0.048576      0   
     109       0.21378     -0.087767     -0.095564      0.2418     -0.026696     -0.13107    0.053364     0.24418     0.048576      0   
     110       0.21378     -0.087767      0.019329      0.2418       0.20579     -0.13107    0.053364    -0.29895     -0.22899      0   

Это первые 10 бинированных периодов в формате WOE. Возраст сопоставляется со значениями WOE, отображаемыми внутри bininfo.

bdata(1:10,'CustAge')
ans=10×1 table
    CustAge 
    ________

    -0.39568
     0.62245
     0.62245
     0.62245
    -0.42622
     0.62245
     0.21378
    -0.26411
     0.21378
     0.21378

Создать creditscorecard с использованием CreditCardData.mat для загрузки файла data с отсутствующими значениями. Переменные CustAge и ResStatus отсутствуют значения.

load CreditCardData.mat 
head(dataMissing,5)
ans=5×11 table
    CustID    CustAge    TmAtAddress     ResStatus     EmpStatus    CustIncome    TmWBank    OtherCC    AMBalance    UtilRate    status
    ______    _______    ___________    ___________    _________    __________    _______    _______    _________    ________    ______

      1          53          62         <undefined>    Unknown        50000         55         Yes       1055.9        0.22        0   
      2          61          22         Home Owner     Employed       52000         25         Yes       1161.6        0.24        0   
      3          47          30         Tenant         Employed       37000         61         No        877.23        0.29        0   
      4         NaN          75         Home Owner     Employed       53000         20         Yes       157.37        0.08        0   
      5          68          56         Home Owner     Employed       53000         14         Yes       561.84        0.11        0   

Использовать creditscorecard с аргументом имя-значение 'BinMissingData' установить в значение true в ячейку отсутствующих числовых или категориальных данных в отдельной ячейке. Применение автоматического binning.

sc = creditscorecard(dataMissing,'IDVar','CustID','BinMissingData',true);
sc = autobinning(sc);

disp(sc)
  creditscorecard with properties:

                GoodLabel: 0
              ResponseVar: 'status'
               WeightsVar: ''
                 VarNames: {1x11 cell}
        NumericPredictors: {1x6 cell}
    CategoricalPredictors: {'ResStatus'  'EmpStatus'  'OtherCC'}
           BinMissingData: 1
                    IDVar: 'CustID'
            PredictorVars: {1x9 cell}
                     Data: [1200x11 table]

Просмотр и печать информации о ячейках для числовых данных для 'CustAge' который включает отсутствующие данные в отдельной ячейке с маркировкой <missing>.

[bi,cp] = bininfo(sc,'CustAge');
disp(bi)
         Bin         Good    Bad     Odds       WOE       InfoValue 
    _____________    ____    ___    ______    ________    __________

    {'[-Inf,33)'}     69      52    1.3269    -0.42156      0.018993
    {'[33,37)'  }     63      45       1.4    -0.36795      0.012839
    {'[37,40)'  }     72      47    1.5319     -0.2779     0.0079824
    {'[40,46)'  }    172      89    1.9326    -0.04556     0.0004549
    {'[46,48)'  }     59      25      2.36     0.15424     0.0016199
    {'[48,51)'  }     99      41    2.4146     0.17713     0.0035449
    {'[51,58)'  }    157      62    2.5323     0.22469     0.0088407
    {'[58,Inf]' }     93      25      3.72     0.60931      0.032198
    {'<missing>'}     19      11    1.7273    -0.15787    0.00063885
    {'Totals'   }    803     397    2.0227         NaN      0.087112
plotbins(sc,'CustAge')

Figure contains an axes. The axes with title CustAge contains 3 objects of type bar, line. These objects represent Good, Bad.

Просмотр и печать информации о ячейках для категориальных данных для 'ResStatus' который включает отсутствующие данные в отдельной ячейке с маркировкой <missing>.

[bi,cg] = bininfo(sc,'ResStatus');
disp(bi)
         Bin          Good    Bad     Odds        WOE       InfoValue 
    ______________    ____    ___    ______    _________    __________

    {'Tenant'    }    296     161    1.8385    -0.095463     0.0035249
    {'Home Owner'}    352     171    2.0585     0.017549    0.00013382
    {'Other'     }    128      52    2.4615      0.19637     0.0055808
    {'<missing>' }     27      13    2.0769     0.026469    2.3248e-05
    {'Totals'    }    803     397    2.0227          NaN     0.0092627
plotbins(sc,'ResStatus')

Figure contains an axes. The axes with title ResStatus contains 3 objects of type bar, line. These objects represent Good, Bad.

Для 'CustAge' и 'ResStatus' предикторы, отсутствуют данные (NaNs и <undefined>) в учебных данных, и процесс связывания оценивает значение WOE, равное -0.15787 и 0.026469 соответственно для отсутствующих данных в этих предикторах, как показано выше.

Для иллюстрации возьмите несколько строк из исходных данных в качестве тестовых данных и введите некоторые отсутствующие данные.

tdata = dataMissing(11:14,:);
tdata.CustAge(1) = NaN;
tdata.TmAtAddress(2) = NaN;
tdata.ResStatus(3) = '<undefined>';
tdata.EmpStatus(4) = '<undefined>';
disp(tdata)
    CustID    CustAge    TmAtAddress     ResStatus      EmpStatus     CustIncome    TmWBank    OtherCC    AMBalance    UtilRate    status
    ______    _______    ___________    ___________    ___________    __________    _______    _______    _________    ________    ______

      11        NaN           24        Tenant         Unknown          34000         44         Yes        119.8        0.07        1   
      12         48          NaN        Other          Unknown          44000         14         Yes       403.62        0.03        0   
      13         65           63        <undefined>    Unknown          48000          6         No        111.88        0.02        0   
      14         44           75        Other          <undefined>      41000         35         No        436.41        0.18        0   

Преобразуйте тестовые данные в значения WOE. Для этого установите bindata аргумент пары имя-значение для 'OutputType' кому 'WOE', прохождение тестовых данных tdata в качестве дополнительного ввода.

bdata = bindata(sc,tdata,'OutputType','WOE');
disp(bdata)
    CustID    CustAge     TmAtAddress    ResStatus    EmpStatus    CustIncome    TmWBank     OtherCC     AMBalance    UtilRate    status
    ______    ________    ___________    _________    _________    __________    ________    ________    _________    ________    ______

      11      -0.15787      0.02263      -0.095463    -0.19947      -0.06843     -0.12109    0.053364     0.24418     0.048576      1   
      12       0.17713          NaN        0.19637    -0.19947       0.20579     -0.13107    0.053364     0.24418     0.092164      0   
      13       0.60931      0.02263       0.026469    -0.19947       0.47972     -0.25547    -0.26832     0.24418     0.092164      0   
      14      -0.04556      0.02263        0.19637         NaN     -0.011271     -0.12109    -0.26832     0.24418     0.048576      0   

Для 'CustAge' и 'ResStatus' предикторы, поскольку в учебных данных отсутствуют данные, недостающие значения в тестовых данных сопоставляются со значением WOE, оцененным для <missing> бункер. Поэтому отсутствует значение для 'CustAge' заменяется на -0.15787и отсутствующее значение для 'ResStatus' заменяется на 0.026469.

Для 'TmAtAddress' и 'EmpStatus', учебные данные не имеют отсутствующих значений, поэтому отсутствует ячейка для отсутствующих данных, и нет возможности оценить значение WOE для отсутствующих данных. Поэтому для этих предикторов преобразование WOE оставляет отсутствующими отсутствующие значения (то есть устанавливает значение WOE, равное NaN).

Эти правила применяются, когда 'OutputType' имеет значение 'WOE' или 'WOEModelInput'. Обоснование состоит в том, что если значение WOE на основе данных существует для отсутствующих данных, оно должно использоваться для преобразования WOE и для последующих шагов (например, подбора логистической модели или оценки).

С другой стороны, когда 'OutputType' имеет значение 'BinNumber' или 'Categorical', bindata оставляет отсутствующие значения отсутствующими, поскольку это позволяет впоследствии считать отсутствующие данные нужными.

Например, когда 'OutputType' имеет значение 'BinNumber', для отсутствующих значений установлено значение NaN:

bdata = bindata(sc,tdata,'OutputType','BinNumber');
disp(bdata)
    CustID    CustAge    TmAtAddress    ResStatus    EmpStatus    CustIncome    TmWBank    OtherCC    AMBalance    UtilRate    status
    ______    _______    ___________    _________    _________    __________    _______    _______    _________    ________    ______

      11        NaN            2             1            1           3            3          2           1           2          1   
      12          6          NaN             3            1           6            2          2           1           1          0   
      13          8            2           NaN            1           7            1          1           1           1          0   
      14          4            2             3          NaN           5            3          1           1           2          0   

И когда 'OutputType' имеет значение 'Categorical', для отсутствующих значений установлено значение '<undefined>':

bdata = bindata(sc,tdata,'OutputType','Categorical');
disp(bdata)
    CustID      CustAge      TmAtAddress     ResStatus      EmpStatus      CustIncome       TmWBank     OtherCC      AMBalance       UtilRate      status
    ______    ___________    ___________    ___________    ___________    _____________    _________    _______    _____________    ___________    ______

      11      <undefined>    [23,83)        Tenant         Unknown        [33000,35000)    [23,45)        Yes      [-Inf,558.88)    [0.04,0.36)      1   
      12      [48,51)        <undefined>    Other          Unknown        [42000,47000)    [12,23)        Yes      [-Inf,558.88)    [-Inf,0.04)      0   
      13      [58,Inf]       [23,83)        <undefined>    Unknown        [47000,Inf]      [-Inf,12)      No       [-Inf,558.88)    [-Inf,0.04)      0   
      14      [40,46)        [23,83)        Other          <undefined>    [40000,42000)    [23,45)        No       [-Inf,558.88)    [0.04,0.36)      0   

bindata поддерживает следующие типы преобразования WOE:

  • Когда 'OutputType' аргумент name-value имеет значение 'WOE', bindata просто применяет преобразование WOE ко всем предикторам и сохраняет остальные переменные в исходных данных на месте и неизменными.

  • Когда 'OutputType' аргумент пары имя-значение имеет значение 'WOEModelInput', bindata возвращает таблицу, которая может использоваться непосредственно в качестве входных данных для подбора модели логистической регрессии для карты показателей. В этом случае bindata:

  • Применяет преобразование WOE ко всем предикторам.

  • Возвращает переменные предиктора, но нет IDVar или неиспользуемые переменные включаются в выходные данные.

  • Включает сопоставленную переменную ответа в качестве последнего столбца.

  • fitmodel вызовы функций bindata внутреннего использования 'WOEModelInput' вариант, соответствующий модели логистической регрессии для creditscorecard модель.

Создать creditscorecard с использованием CreditCardData.mat для загрузки файла data (с использованием набора данных из Refaat 2011). Используйте 'IDVar' аргумент, указывающий, что 'CustID' содержит информацию об идентификаторе и не должен быть включен в качестве предикторной переменной.

load CreditCardData 
sc = creditscorecard(data,'IDVar','CustID')
sc = 
  creditscorecard with properties:

                GoodLabel: 0
              ResponseVar: 'status'
               WeightsVar: ''
                 VarNames: {1x11 cell}
        NumericPredictors: {1x6 cell}
    CategoricalPredictors: {'ResStatus'  'EmpStatus'  'OtherCC'}
           BinMissingData: 0
                    IDVar: 'CustID'
            PredictorVars: {1x9 cell}
                     Data: [1200x11 table]

Выполните автоматическое binning.

sc = autobinning(sc);

Показать сведения о ячейке для 'CustAge'.

bininfo(sc,'CustAge')
ans=8×6 table
         Bin         Good    Bad     Odds        WOE       InfoValue
    _____________    ____    ___    ______    _________    _________

    {'[-Inf,33)'}     70      53    1.3208     -0.42622     0.019746
    {'[33,37)'  }     64      47    1.3617     -0.39568     0.015308
    {'[37,40)'  }     73      47    1.5532     -0.26411    0.0072573
    {'[40,46)'  }    174      94    1.8511    -0.088658     0.001781
    {'[46,48)'  }     61      25      2.44      0.18758    0.0024372
    {'[48,58)'  }    263     105    2.5048      0.21378     0.013476
    {'[58,Inf]' }     98      26    3.7692      0.62245       0.0352
    {'Totals'   }    803     397    2.0227          NaN     0.095205

Это первые 10 возрастных значений в исходных данных, используемых для создания creditscorecard объект.

data(1:10,'CustAge')
ans=10×1 table
    CustAge
    _______

      53   
      61   
      47   
      50   
      68   
      65   
      34   
      50   
      50   
      49   

Преобразуйте тестовые данные в значения WOE. Для этого установите bindata аргумент пары имя-значение для 'OutputType' кому 'WOE'.

bdata = bindata(sc,'OutputType','WOE');

Это первые 10 бинированных периодов в формате WOE. Возраст сопоставляется со значениями WOE, отображаемыми внутри bininfo.

bdata(1:10,'CustAge')
ans=10×1 table
    CustAge 
    ________

     0.21378
     0.62245
     0.18758
     0.21378
     0.62245
     0.62245
    -0.39568
     0.21378
     0.21378
     0.21378

Это первые 10 бинированных периодов в формате WOE. Возраст сопоставляется со значениями WOE, отображаемыми внутри bininfo.

bdata(1:10,'CustAge')
ans=10×1 table
    CustAge 
    ________

     0.21378
     0.62245
     0.18758
     0.21378
     0.62245
     0.62245
    -0.39568
     0.21378
     0.21378
     0.21378

Размер исходных данных и размер bdata выходные данные одинаковы, поскольку bindata оставляет неиспользуемые переменные (такие как 'IDVar') без изменений и на месте.

whos data bdata
  Name          Size             Bytes  Class    Attributes

  bdata      1200x11            108987  table              
  data       1200x11             84603  table              

Значения ответа одинаковы в исходных данных и в привязанных данных, поскольку по умолчанию bindata не изменяет значения ответа.

disp([data.status(1:10) bdata.status(1:10)])
     0     0
     0     0
     0     0
     0     0
     0     0
     0     0
     1     1
     0     0
     1     1
     1     1

При подборе модели логистической регрессии с данными WOE установите 'OutputType' аргумент пары имя-значение для 'WOEModelInput'.

bdata = bindata(sc,'OutputType','WOEModelInput');

Привязанные данные предиктора те же, что и при 'OutputType' аргумент пары имя-значение имеет значение 'WOE'.

bdata(1:10,'CustAge')
ans=10×1 table
    CustAge 
    ________

     0.21378
     0.62245
     0.18758
     0.21378
     0.62245
     0.62245
    -0.39568
     0.21378
     0.21378
     0.21378

Однако размер исходных данных и размер bdata выходные данные различны. Это потому, что bindata удаляет неиспользуемые переменные (например, 'IDVar').

whos data bdata
  Name          Size            Bytes  Class    Attributes

  bdata      1200x10            99167  table              
  data       1200x11            84603  table              

В этом случае значения ответа также изменяются и отображаются таким образом, что «Хорошо» 1 и «Bad» является 0.

disp([data.status(1:10) bdata.status(1:10)])
     0     1
     0     1
     0     1
     0     1
     0     1
     0     1
     1     0
     0     1
     1     0
     1     0

Входные аргументы

свернуть все

Модель кредитной карты показателей, указанная как creditscorecard объект. Использовать creditscorecard для создания creditscorecard объект.

Данные для ячейки с учетом правил, установленных в creditscorecard , указанный с помощью таблицы. По умолчанию data имеет значение creditscorecard необработанные данные объекта.

Перед созданием creditscorecard объект, выполните задачу подготовки данных, чтобы иметь соответствующим образом структурированный data в качестве входных данных для creditscorecard объект.

Типы данных: table

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: bdata = bindata(sc,'OutputType','WOE','ResponseFormat','Mapped')

Формат вывода, заданный как пара, разделенная запятыми, состоящая из 'OutputType' и вектор символов со следующими значениями:

  • BinNumber - возвращает номера ячеек, соответствующие каждому наблюдению.

  • Categorical - возвращает метку ячейки, соответствующую каждому наблюдению.

  • WOE - возвращает вес доказательств (WOE), соответствующий каждому наблюдению.

  • WOEModelInput - используйте эту опцию при подгонке модели. Этот параметр:

    • Возвращает вес доказательства (WOE), соответствующий каждому наблюдению.

    • Возвращает переменные предиктора, но нет IDVar или неиспользуемые переменные включаются в выходные данные.

    • Отбрасывает все предикторы, чьи ячейки имеют Inf или NaN Значения WOE.

    • Включает сопоставленную переменную ответа в качестве последнего столбца.

    Примечание

    Когда bindata аргумент пары имя-значение 'OutputType' имеет значение 'WOEModelInput', bdata выходные данные содержат только столбцы, соответствующие предикторам, ячейки которых не имеют Inf или NaN Значения веса доказательств (WOE) и bdata включает сопоставленный ответ в качестве последнего столбца.

    Отсутствующие данные (если таковые имеются) включены в bdata выводить как отсутствующие данные и не влиять на правила отбрасывания предикторов, когда 'OutputType' имеет значение 'WOEModelInput'.

Типы данных: char

Формат значений ответа, указанный как пара, разделенная запятыми, состоящая из 'ResponseFormat' и вектор символов со следующими значениями:

  • RawData - Переменная ответа копируется без изменений в bdata выход.

  • Mapped - Значения ответа изменяются (при необходимости) таким образом, что «Good» отображается на 1, и «Bad» сопоставляется с 0.

Типы данных: char

Выходные аргументы

свернуть все

Привязанные переменные предиктора, возвращенные в виде таблицы. Это таблица того же размера (см. исключение в следующем примечании), что и входные данные, но только предикторы, указанные в creditscorecard объект PredictorVars свойства привязаны, а оставшиеся неизменны.

Примечание

Когда bindata аргумент пары имя-значение 'OutputType' имеет значение 'WOEModelInput', bdata выходные данные содержат только столбцы, соответствующие предикторам, ячейки которых не имеют Inf или NaN Значения веса доказательств (WOE) и bdata включает сопоставленный ответ в качестве последнего столбца.

Отсутствующие данные (если таковые имеются) включены в bdata выводить как отсутствующие данные и не влиять на правила отбрасывания предикторов, когда 'OutputType' имеет значение 'WOEModelInput'.

Ссылки

[1] Андерсон, R. The Credit Скоринг Toolkit. Издательство Оксфордского университета, 2007 год.

[2] Рефаат, М. Карты оценки кредитных рисков: разработка и внедрение с использованием SAS. lulu.com, 2011.

Представлен в R2014b