Моделирование карты показателей кредита с использованием весов наблюдений

При создании creditscorecard объект, таблица, используемая для входа data аргумент либо определяет, либо не задает веса наблюдений. Если на data не использует веса, тогда «отсчитывает» для Good, Bad, и Odds используются функциями кредитования счета карты. Однако, если опционально WeightsVar аргумент задается при создании creditscorecard объект, затем «counts» для Good, Bad, и Odds - сумма весов.

Для примера вот фрагмент входа таблицы, который не задает наблюдательные веса:

Input table snippet for creating a creditscorecard object

Если вы складываете данные предиктора возраста клиента с клиентами до 45 лет в одном интервале и 46 лет и выше в другом интервале, вы получаете следующую статистику:

Statistics for "good" and "bad" for one bin up to 45 years old and 46 and up in a second bin

Good означает общее количество строк с 0 значение в status переменная отклика. Bad количество 1"s в status столбец. Odds - отношение Good на Bad. The Good, Bad, и Odds указывается для каждого интервала. Это означает, что в выборке 381 человек, которым 45 лет, и младше, которые выплатили свои кредиты, 241 в той же возрастной области значений, которые допустили дефолт, и, следовательно, шансы быть хорошими для этой возрастной области значений 1.581.

Предположим, что моделист считает, что люди 45 и младше недостаточно представлены в этой выборке. Моделист хочет отдать всем строкам с возрастом до 45 лет больший вес. Предположим, что моделист считает, что возрастная группа до 45 лет должна иметь на 50% больше веса, чем строки с возрастом 46 лет и выше. Данные таблицы расширяются, чтобы включить веса наблюдений. A Weight столбец добавляется в таблицу, где все строки с возрастом 45 лет и младше имеют вес 1.5, и все другие строки имеют вес 1. Существуют и другие причины использовать веса, для примера недавним точкам данных могут быть присвоены более высокие веса, чем старым точкам данных.

Table demonstrating weights depending on the predictor for CustAge

Если вы бинете взвешенные данные, основанные на возрасте (45 лет и ниже, против 46 лет и выше), ожидают, что каждая строка с возрастом 45 лет и младше должна насчитывать 1,5 наблюдения, и, следовательно, Good и Bad «счетчики» увеличены на 50%:

Table snippet demonstrating the effect of weights on "good" and "bad"

«Counts» теперь являются «взвешенными частотами» и больше не являются целочисленными значениями. The Odds не изменяйте для первого интервала. Конкретные веса, приведенные в этом примере, имеют эффект масштабирования общего Good и Bad отсчитывает в первом интервале по тому же масштабному коэффициенту, поэтому их отношение не изменяется. Однако Odds значение общей выборки изменяется; первый интервал теперь имеет больший вес, и, поскольку шансы в этом интервале меньше, общее Odds теперь тоже ниже. Другая статистика кредитной карты показателей, не показанная здесь, например WOE и Information Value затрагиваются подобным образом.

В целом, эффект весов заключается не только в масштабировании частот в конкретном интервале, потому что представители этого интервала будут иметь различные веса. Цель этого примера состоит в том, чтобы продемонстрировать концепцию перехода от отсчётов к сумме весов.

См. также

| | | |

Похожие темы