Экранируйте предикторы протокола результатов кредита на прогнозирующее значение
metric_table
= screenpredictors(data)metric_table
= screenpredictors(___,Name,Value) возвращает выходную переменную, metric_table
= screenpredictors(data)metric_table, таблицу MATLAB®, содержащую расчетные значения для нескольких мер предсказательной силы для каждой переменной прогноза в data. Используйте функцию screenpredictors в качестве шага предварительной обработки в Протоколе результатов Кредита, Моделируя Рабочий процесс (Financial Toolbox), чтобы сократить количество переменных прогноза, прежде чем вы создадите протокол результатов кредита с помощью функции creditscorecard от Financial Toolbox™.
задает опции с помощью одного или нескольких аргументов пары "имя-значение" в дополнение к входным параметрам в предыдущем синтаксисе. metric_table
= screenpredictors(___,Name,Value)
creditscorecardСократите количество переменных прогноза путем экранирования предикторов, прежде чем вы создадите протокол результатов кредита.
Используйте файл CreditCardData.mat, чтобы загрузить данные (использующий набор данных от Refaat 2011).
load CreditCardDataЗадайте 'IDVar' и 'ResponseVar'.
idvar = 'CustID'; responsevar = 'status';
Используйте screenpredictors, чтобы вычислить метрики экранирования предиктора. Функция возвращает таблицу, содержащую метрические значения. Каждая строка таблицы соответствует предиктору от данных о входной таблице.
metric_table = screenpredictors(data,'IDVar', idvar,'ResponseVar', responsevar)
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
metric_table = sortrows(metric_table,'AccuracyRatio','descend')
metric_table=9×7 table
InfoValue AccuracyRatio AUROC Entropy Gini Chi2PValue PercentMissing
_________ _____________ _______ _______ _______ __________ ______________
CustIncome 0.15572 0.17758 0.58879 0.891 0.42731 0.0018428 0
CustAge 0.18863 0.17095 0.58547 0.88729 0.42626 0.00074524 0
TmWBank 0.15719 0.13612 0.56806 0.89167 0.42864 0.0054591 0
EmpStatus 0.048038 0.10886 0.55443 0.90814 0.4381 0.00037823 0
AMBalance 0.07159 0.087142 0.54357 0.90446 0.43592 0.48528 0
ResStatus 0.0097738 0.05039 0.5252 0.91422 0.44182 0.27875 0
OtherCC 0.014301 0.044459 0.52223 0.91347 0.44132 0.047616 0
UtilRate 0.075086 0.035914 0.51796 0.90405 0.43575 0.45546 0
TmAtAddress 0.094574 0.010421 0.50521 0.90089 0.43377 0.182 0
На основе метрики AccuracyRatio выберите главные предикторы, чтобы использовать, когда вы создадите объект creditscorecard.
varlist = metric_table.Row(metric_table.AccuracyRatio > 0.09)
varlist = 4x1 cell array
{'CustIncome'}
{'CustAge' }
{'TmWBank' }
{'EmpStatus' }
Используйте creditscorecard, чтобы создать createscorecard, основанный на объектах только на "экранированных" предикторах.
sc = creditscorecard(data,'IDVar', idvar,'ResponseVar', responsevar, 'PredictorVars', varlist)
sc =
creditscorecard with properties:
GoodLabel: 0
ResponseVar: 'status'
WeightsVar: ''
VarNames: {1x11 cell}
NumericPredictors: {'CustAge' 'CustIncome' 'TmWBank'}
CategoricalPredictors: {'EmpStatus'}
BinMissingData: 0
IDVar: 'CustID'
PredictorVars: {'CustAge' 'EmpStatus' 'CustIncome' 'TmWBank'}
Data: [1200x11 table]
данные Данные для объекта creditscorecardДанные для объекта creditscorecard, заданного как таблица MATLAB, где каждый столбец данных может быть любым из следующих типов данных:
Числовой
Логический
Массив ячеек из символьных векторов
Массив символов
Категориальный
Строка
Типы данных: table
Укажите необязательные аргументы в виде пар ""имя, значение"", разделенных запятыми. Имя (Name) — это имя аргумента, а значение (Value) — соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
metric_table = screenpredictors(data,'IDVar','CustAge','ResponseVar','status','PredictorVars',{'CustID','CustIncome'})'IDVar' — Имя переменной идентификатора'' (значение по умолчанию) | вектор символовИмя переменной идентификатора, заданной как пара, разделенная запятой, состоящая из 'IDVar' и чувствительного к регистру вектора символов. Данные 'IDVar' могут быть порядковыми числами или Номерами социального страхования. Путем определения 'IDVar' можно не использовать переменную идентификатора из переменных прогноза легко.
Типы данных: char
'ResponseVar' — Имя переменной отклика для индикатора “Good” или “Bad”data (значение по умолчанию) | вектор символовИмя переменной отклика для индикатора “Good” или “Bad”, заданного как пара, разделенная запятой, состоящая из 'ResponseVar' и чувствительного к регистру вектора символов. Данные о переменной отклика должны быть двоичным файлом.
Если не заданный, 'ResponseVar' установлен в последний столбец входа data по умолчанию.
Типы данных: char
'PredictorVars' — Имена переменных прогнозаVarNames и { IDVar, ResponseVar }
(значение по умолчанию) | массив ячеек из символьных векторов | массив строкИмена переменных прогноза, заданных как пара, разделенная запятой, состоящая из 'PredictorVars' и чувствительного к регистру массива ячеек из символьных векторов или массива строк. По умолчанию, когда вы создаете объект creditscorecard, все переменные являются предикторами за исключением IDVar и ResponseVar. Любое имя вы задаете использование 'PredictorVars', должно отличаться от имен ResponseVar и IDVar.
Типы данных: cell | string
'WeightsVar' — Имя переменной весов'' (значение по умолчанию) | вектор символовИмя переменной весов, заданной как пара, разделенная запятой, состоящая из 'WeightsVar' и чувствительного к регистру вектора символов, чтобы указать, какое имя столбца в таблице data содержит веса строки.
Если вы не задаете 'WeightsVar', когда вы создаете объект creditscorecard, то функция использует модульные веса в качестве весов наблюдения.
Типы данных: char
NumBins Количество (равняются частоте), интервалы для числовых предикторов20 (значение по умолчанию) | числовой скалярКоличество (равняются частоте), интервалы для числовых предикторов, заданных как пара, разделенная запятой, состоящая из 'NumBins' и числового скаляра.
Типы данных: double
'FrequencyShift' — Указывает на маленький сдвиг в таблицах частот, которые содержат нулевые записи0.5 (значение по умолчанию) | скаляр, числовой между 0 и 1Маленький сдвиг в таблицах частот, которые содержат нулевые записи, заданные как пара, разделенная запятой, состоящая из 'FrequencyShift' и скаляра, числового со значением между 0 и 1.
Если таблица частот предиктора содержит какие-либо "чистые" интервалы (содержащий все товары или весь bads) после вас интервал данные с помощью autobinning, то функция добавляет значение 'FrequencyShift' во все интервалы в таблице. Чтобы избежать любого возмущения, установите 'FrequencyShift' на 0.
Типы данных: double
metric_table — Расчетные значения для метрик экранирования предиктораРасчетные значения для метрик экранирования предиктора, возвращенных как таблица. Каждая строка таблицы соответствует предиктору от данных о входной таблице. Столбцы таблицы содержат вычисленные значения для следующих метрик:
'InfoValue' — Информационное значение. Эта метрика измеряет силу предиктора в подходящей модели путем определения отклонения между дистрибутивами "Goods" и "Bads".
'AccuracyRatio' — Отношение точности.
'AUROC' — Область под кривой ROC.
'Entropy' — Энтропия. Эта метрика измеряет уровень непредсказуемости в интервалах. Можно использовать энтропийную метрику, чтобы подтвердить модель риска.
'Gini' — Gini. Эта метрика измеряет статистическую дисперсию или неравенство в рамках выборки данных.
'Chi2PValue' — Хи придала квадратную форму p - значение. Эта метрика вычисляется из метрики в квадрате хи и является мерой статистической разницы и независимости между группами.
'PercentMissing' — Процент отсутствующих значений в предикторе. Эта метрика выражается в десятичной форме.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.