Подготовка исходных данных для анализа. Требования к файлу excel для построения модели / проведения теста

Подготовка исходных данных для анализа. Требования к файлу excel для построения модели / проведения теста

Система Scoring Machine создает скоринговые модели и тесты к ним через загрузку excel-файлов с расширением .xls / .xlsx, но при этом очень важно, чтобы используемые файлы соответствовали требованиям для корректного анализа и, желательно, чтобы пользователь также соблюдал и рекомендации во время формирования файла и подготовки данных, чтобы модель была как можно более эффективной.

Подготовка и сбор данных для создания скоринговой модели и тестирования. Общая информация

В основе построения скоринговых карт лежат статистические модели. Для их построения должна быть достаточная и качественная информация о клиентах. Качество исходных статистических данных для построения статистической модели определяет ее точность прогнозирования и успех разработки скоринговой модели в целом.

Разработка скоринговой модели строится на анализе предыдущего опыта. Достаточный объем информации — это одна из главных предпосылок построения модели. Количество данных может варьироваться в зависимости от конкретных моделей, но в целом данные должны удовлетворять требованиям статистической значимости и случайности. Исходные данные для построения модели могут содержать внутренние данные анкет, а также внешние данные, полученные от партнеров или даже вычислительные данные, которые пользователь / система пользователя вычисляет на своей стороне (например, разница и периоды между обращениями в компанию). Все, что вы знаете или можете узнать о клиенте на момент его обращения.

В идеале модели скоринга должны применяться в отношении тех же продуктов, сектора рынка, и экономической ситуации, которые легли в основу данных о прошлом опыте. Например, сведения по потребительским кредитам не могут адекватно использоваться при разработке скоринговой карты по автокредитованию. Это требование определяет период, за который собираются данные. Исторический период данных для построения модели определяется, как правило, видом скоринга и видом продукта, видом клиента. Это значит, что если клиенты у вас сегментируются, то важно делать отдельные скоринговые карты не только для разных продуктов (кредит, кредитная карта, автокредит, сбор ранней задолженности, сбор поздней задолженности, реклама через email, реклама через sms, использование телемаркетинга), но и для разных сегментов клиентов. Самая простая сегментация клиента: новый клиент и повторный клиент, который раньше уже пользовался услугами компании. Для них могут быть важными совершенно разные атрибуты.

Поэтому чаще всего дает гораздо лучше результат использование нескольких скоринговых карт и моделей.

Лучше всего брать данные как можно свежее, но те, где целевое событие уже было совершено. Например, вы выдали кредит и ваша цель, чтобы клиент не вышел на просрочку больше, чем 1 месяц. Тогда лучше всего взять данные за максимально большой период, но только за тот период, где все клиенты в теории уже могли либо закрыть кредит, либо выйти на просрочку. Желательно максимально избегать неопределенностей. Или же вы делаете смс-рассылку клиентам, где целевая задача получить от них нужную активность в течение недели. Тогда вы сможете использовать этих клиентов для анализа минимум по истечению недели, не раньше.
Данные об определенном типе клиентов необходимо исключить из исходной информационной базы. Это могут быть нетипичные клиенты — мошенники, сотрудники, VIP клиенты, умершие клиенты, т.е. все те клиенты, которые выбиваются из массовости чем-то ярким. Для каждого подобного типа при необходимости лучше строить отдельную скоринговую модель.

Определение зависимой переменной

Выбор зависимой переменной определяется целью построения скоринговой модели. Например, выход или не выход на просрочку, отклик на активность с определенного канала, покупка дополнительного товара.
На этапе определения зависимой переменной клиентов делят на три группы: «плохие», «хорошие» и «неопределенные». Плохие – те, где не была выполнена поставленная желаемая цель. Хорошие – те, где цель выполнена была. Неопределенные – те, где цель еще не могла быть выполнена или по данным клиентам мало данных, например, не полная анкета с отсутсвием множества атрибутов или невозможность вычислить большинство данных и др.

При построении скоринговой карты используются только клиенты, определенные как «плохие» и «хорошие». Неопределенные клиенты исключаются из исходных данных для создания модели.

Формирование обучающей и тестовой выборки

Доступные для построения скоринговой модели информационные данные называются часто исторической выборкой. Историческая выборка должна как можно точнее отражать исследуемую генеральную совокупность клиентов, т.е. быть репрезентативной. Поэтому после подготовки этих данных о клиентах, разбивки их на различные сегменты по типам клиента, региону или продукту можно переходить на следующий шаг.
Для проверки адекватности и точности предсказания скоринговой модели на этапе ее разработки историческую выборку необходимо разделить на две группы:

- обучающую выборку — наблюдения, по которым будет непосредственно строить модель;
- тестовую или контрольную выборку — наблюдения, по которым будет известно значение зависимой переменной, но они не будут участвовать в построении модели, а будут использованы для проверки точности предсказания модели.

Обучающая и контрольная выборка должна формироваться на основе механизма случайного отбора обычно в соотношении 70–80% и 30–20% соответственно от исходного объема исторической выборки.

Проверка достоверности модели заключается в ее применении и сравнении результатов на контрольной и тестовой выборке. Модель должна давать корректные прогнозы не только на обучающей совокупности, но и на практике при ее применении. Обычно используют стратегию генерализации модели на основе двух выборок. Схожие показатели точности, полученные на обучающей и тестовой выборке — признак того, что на практике скоринговая модель будет работать примерно также.

Если качество модели недостаточное, то можно изменить атрибуты, вес атрибутов или вес коэффициентов для итоговой оценки, чтобы изменить модель и повторно провести тест.

Определение объема выборки

Строить модель возможно на повторяющихся зависимостях. Соответственно, чем больше будет выборка, тем лучше. На практике рекомендуется выборка размером минимально 5 000–10 000 клиентов для построения модели. Но есть практика построения модели и на 1 000 клиентов. В любом случае постарайтесь использовать максимальное количество клиентов, но при условии разделения на необходимые сегменты и исключения тех клиентов, по которым данные не полные, как описано выше.
Лучше всего, когда соотношение хороших и плохих соблюдается как 50/50, но, как правило, это невозможно. В любом случае мы не рекомендуем специально делать такое соотношение для выборки. Лучше брать всех за определенный период, пусть даже соотношение плохих будет на порядок меньше к хорошим.

После подготовки этих данных можно найти необходимые зависимости и построить скоринговую модель, благодаря чему значительно улучшить достижение желаемых результатов с понижением расходов.

Требования к файлу

Для загрузки данных и построении модели и тестирования Вы выгрузили все данные, и они у Вас готовы к анализу. Теперь необходимо подготовить файл под определенные требования, чтобы модель была построена.

1. Тип файла должен быть .xls или .xlsx сохранен как Книга Excel и никак иначе.

2. Первая колонка в файле должна быть заполнена пометкой хорошего или плохого клиента. Например, GOOD или BAD или другие значения, которые указали в настройках.

3. Используйте только те данные, которые известны до момента принятия решения, для которого вы строите скоринговую модель.

4. Для анализа данных каждое обращение – 1 строчка. А это значит, что не нужно объединять клиента в одну строку, если клиент обращался несколько раз. В таких случаях строчек должно быть ровно столько, сколько и обращений и данные в файле должны быть актуальные именно на момент обращения клиента.

5. Какие-то персональные данные для анализа не нужны, использоваться они все равно не будут для построения модели, поэтому лучше их и не включать в файл. Например, имя, номер телефона и другие подобные персональные данные.

6. Нельзя оставлять пустые ячейки, пропущенные данные! Если есть пустая ячейка – запишите туда какое-то другое значение, какую-то свою константу, например «null» или «unknown». Это важно! В загружаемом в файле пропусков быть не должно, все ячейки, если в строке есть данные должны быть заполнены чем-то.

7. Вариантов значений рекомендуется не больше 20–30, а лучше всего, чтобы вариантов значений атрибута было до 10. Это значит, если какой-то из атрибутов состоит из множества вариантов, то лучше заполнить эти данные группами значений. Например, возраст клиента. Этот атрибут лучше подавать группами по несколько лет, например: 18–21; 22–25; 26–30… Но это не означает, что если требуется, то нельзя использовать множество значений, просто, как правило, это исказит модель и не даст лучшего результата.

8. Для выгрузки тестовой модели обязательно обращайте внимание, что атрибуты и их значения в тестовой модели должны иметь полностью те же названия, что и в самой скоринговой модели. Если скоринговая модель объединила какие-то атрибуты, то вам это делать не нужно самостоятельно, Scoring Machine во время тестирования сама объединит те же атрибуты, если это потребуется.

Пример загружаемых данных:

Illustration

Когда данные готовы, если вы не планируете использовать один и тот же файл и для построения модели и для теста, то сразу рекомендуем его и разделить 80 / 20 или 90 / 10, где первая часть – это количество процентов для обучающей выборки, с которой будете строить модель, а вторая часть это тестовая выборка, на которой вы будете проверять уже готовую модель.

Как только данные будут готовы, можете смело приступать к построению скоринговой модели с помощью Scoring Machine, Вы удивитесь на сколько это легко!