Ранее мы рассказывали о скоринге кредитных историй и видах кредитного скоринга. Сегодня предлагаем ознакомиться задачами, проблемами и решениями создания модели кредитного риска для секьюритизации, учёта и выпуска определённой группы кредитов.

В конце 2016 года Goldman Sachs заключил сделку с одним из крупных потребительских региональных банков (КПРБ) о покупке портфеля кредитов на ремонт жилья в 800 миллионов долларов США. У этой сделки были две основные цели:

  1. Выпустить секьюритизированные активы, подкрепленные данными кредитами.
  2. Использовать разработанную модель и проведенный анализ для начала выпуска своих собственных кредитов для ремонта под брендом Marcus.

Для людей не из США нужен ВПН, чтобы увидеть страницу.

Для этого мне была поставлена задача разработать статистическую модель с минимальными отличиями для следующих функций (о задачах кредитного скоринга мы рассказывали в статье):

  1. Секьюритизации и структурирования – фокус на продолжительность и объем выплат.
  2. Отчетность для регулятора – фокус на выполнения специфических требования Basel.
  3. Выдача кредита – оценка риска заемщика для определения процента по кредиту.

Сразу же замечу, что последний момент из списка – создание модели для выдачи кредита – довольно скоро была отменена. В результате начального анализа было определенно, что изначальная модель кредитного скоринга Marcus, разработанная мной для обычных потребительских кредитов, вполне применима и к кредитам на ремонт.

Поэтому моей основной задачей стала разработка модели для секьюритизации и отчетности для регулятора. Кстати, мы детально разбираем данный процесс в рамках курса «Data Science Academy».

Сбор данных

Пожалуй, самый неопределённый момент из всех. С одной стороны, вместе с кредитами, как финансовыми активами, мы приобретали у регионального банка также базу исторических данных о кредитах данного типа. Эти данные я называю микроэкономическим или индивидуальными – они характеризуют сам кредит и кредитную историю заемщика: баланс кредита, возраст кредита, месяцы с последнего просроченного платежа, общее количество задержек платежей, кредитный рейтинг заемщика, его месячный доход и прочее, итого более 80 различных показателей. В довесок, мы использовали данные нашего статистического департамента, для сбора макроэкономической информации, связанной с кредитами: средним доходом в регионе кредита, уровнем безработицы в этом регионе и др.

С другой стороны, для правильной модели кредитного скоринга, которая бы удовлетворила как инвесторов, так и регуляторов, мы предъявляем очень строгие требования к историческим данным. Для нас было крайне важно иметь данные о подобных кредитах начиная с 2005 года, чтобы мы смогли смоделировать поведение кредитов в период экономического кризиса 2008-2009 годов. И, конечно, мало кто из потребительских банков, хранит столь «архивные» данные в идеальном состоянии, что приводит к недостаточной и неполной информации о многих кредитах.

Поэтому на этом этапе я потратил ни одну неделю постоянно разговаривая с IT-департаментом КПРБ, запрашивая, проверяя и требуя изменений исходной информации. Учитывая, что общий размер базы был > 200 ГБ, то процесс этот был довольно трудоемкий. С технологической точки зрения мы для всего процесса использовали Python & SQL.

Разработка модели

Модель для данного портфеля кредитов, как и большинства остальных, сводилась к оценке двух типов риска: риска предоплаты и риска дефолта. Первый используется чтобы понять, насколько вероятен факт досрочного погашения кредита, второй применяется для оценки вероятности дефолта заемщика, а следовательно, прекращения получения платежей. Для риска предоплаты использовалась многофакторная линейная модель, для риска дефолта использовалась логистическая модель регрессии. Именно эти две модели я объясняю на примерах в рамках «Data Science Academy».

На мой взгляд, более интересной и менее объясненной является логистическая модель, поэтому именно ее я распишу в деталях, с некоторыми упрощениями.

Логистическая модель. Разделение данных

Первый этап разработки модели кредитного скоринга – это разделение выборки данных на подвыборки. Одна часть будет использована для разработки модели, другая для верификации модели. В частности, мы разделили данный на две подвыборки:

  1. Разработка – данные за 1, 2, 5, 7, 8 и 11 месяцы с 10/2006 по 10/2016
  2. Верификация – данные за 3, 6, 9 и 12 месяцы с 10/2006 по 10/2016

Логистическая модель. Выбор переменных

Второй этап логистической модели — это определить какие из 80+ показателей являются наиболее влияющими на вероятность дефолта. Изначально, мы сделали выборку из 15 наиболее вероятных численных показателей. Далее мы использовали сегментацию входных данных с последующим измерением информационного значения (Information Value) и совокупности данных (Weight of Evidence) для того, чтобы определить именно те значения, которые действительно влияют на вероятность дефолта.

В качестве количественного мерила мы использовали значения с информационным значением больше 3%. Это означает, что переменная с таким IV влияет на финальный результат (дефолт) с сильным эффектом. В результате из 80+ микро- и макроэкономических значений у нас сначала осталось 15, а потом после IV теста, только 3 микроэкономических значения:

  1. Кредитный Рейтинг.
  2. Сколько раз была совершенна задержка платежа.
  3. Месячный доход заемщика.

Логистическая модель. Сегментация

После того как мы выбрали наиболее «влиятельные» значения мы должны их разбить на сегменты, которые существенно влияли бы на вероятность дефолта. После разбития мы приписываем данному сегменту коэффициент, который будет показывать влияние данного сегмента на вероятность дефолта.

К примеру, кредитный рейтинг был разбит на 4 сегмента от 600 до 800 единиц, и каждый сегмент имел средний шаг коэффициента в -8%. Это означает, что кредиты с кредитным рейтингом с 650-700 единиц будут иметь вероятность дефолта на 8% ниже, чем кредиты с рейтингом в 600-650 единиц.

В результате мы получили 12 сегментов для 3 микроэкономических значений, которые могли статистически влиять на вероятность дефолта.

Логистическая модель. Верификация

После создания модели на основе данных для разработки, данная модель была применена на субвыборке для валидации, чтобы проверить насколько хорошо разработанная модель предсказывает возможные дефолты на другом массиве данных. Так как это был наш далеко не первый проект, модель успешно прошла верификацию и была использована для секьюритизации отчетности.

Заключение

Как результат, данная сделка была секьюритизрована и продана корпоративным клиентом, создав выручку в 22 миллиона долларов. Более того, именно такие методики кредитного скоринга используются в организациях нового поколения, где участие человека сведено к минимуму, начиная от момента выпуска кредитов, до момента предоставления информации регуляторам. Тысячи часов работы финансистов, операторов и бухгалтеров заменяются десятками часов работы специалистов DataScience & QuantitativeFinance. Если Вы хотите иметь актуальные знания на годы вперёд – записывайтесь на наш курс, в котором вы научитесь этим и многим другим навыкам с нуля.

Автор: Влас Лёзин, преподаватель SF Education