exponenta event banner

Моделирование кредитной карты показателей с использованием весов наблюдения

При создании creditscorecard объект, таблица, используемая для ввода data аргумент определяет или не определяет веса наблюдений. Если data не использует веса, то «подсчитывает» для Good, Bad, и Odds используются функциями кредитной карты. Однако, если необязательный WeightsVar аргумент задается при создании creditscorecard объект, затем «подсчитывает» для Good, Bad, и Odds являются суммой весов.

Например, вот фрагмент входной таблицы, который не определяет веса наблюдений:

Input table snippet for creating a creditscorecard object

Если вы складируете данные предиктора возраста клиента, с клиентами до 45 лет в одной ячейке и 46 и выше в другой ячейке, вы получаете следующие статистические данные:

Statistics for "good" and "bad" for one bin up to 45 years old and 46 and up in a second bin

Good означает общее количество строк с 0 значение в поле status переменная ответа. Bad количество 1«» в status столбец. Odds - отношение Good кому Bad. Good, Bad, и Odds сообщается для каждой ячейки. Это означает, что в выборке есть 381 человек в возрасте 45 лет и младше, которые выплатили свои кредиты, 241 человек в том же возрастном диапазоне, которые объявили дефолт, и, следовательно, шансы быть хорошими для этого возрастного диапазона 1.581.

Предположим, что моделист считает, что люди 45 и моложе недопредставлены в этой выборке. Моделист хочет придать всем рядам с возрастом до 45 лет больший вес. Предположим, что моделист считает, что возрастная группа до 45 лет должна иметь на 50% больший вес, чем ряды с возрастом 46 лет и выше. Табличные данные расширяются для включения весов наблюдений. A Weight добавляется в таблицу, где все строки с возрастом 45 лет и ниже имеют вес 1.5, и все остальные ряды вес 1. Существуют и другие причины использования весов, например, последним точкам данных могут присваиваться более высокие веса, чем старым точкам данных.

Table demonstrating weights depending on the predictor for CustAge

Если вы складируете взвешенные данные на основе возраста (45 и ниже, против 46 и выше), ожидается, что каждая строка с возрастом 45 и ниже должна считать 1,5 наблюдения, и, следовательно, Good и Bad «счетчики» увеличены на 50%:

Table snippet demonstrating the effect of weights on "good" and "bad"

«Счетчики» теперь являются «взвешенными частотами» и больше не являются целыми значениями. Odds не изменяйте для первой ячейки. Определенные веса, приведенные в этом примере, имеют эффект масштабирования общего количества Good и Bad подсчитывает в первом блоке на один и тот же коэффициент масштабирования, поэтому их соотношение не изменяется. Тем не менее, Odds значение общей выборки действительно изменяется; первый бункер теперь имеет больший вес, и поскольку шансы в этом бункере ниже, общая сумма Odds сейчас тоже ниже. Другие статистические данные кредитной карты показателей, не показанные здесь, такие как WOE и Information Value затрагиваются аналогичным образом.

В общем, эффект весов заключается не просто в масштабировании частот в конкретном бункере, потому что члены этого бункера будут иметь разные веса. Целью этого примера является демонстрация концепции перехода от подсчета к сумме весов.

См. также

| | | |

Связанные темы