Підготовка вихідних даних для аналізу. Вимоги до файлу excel для побудови моделі/проведення тесту

Підготовка вихідних даних для аналізу. Вимоги до файлу excel для побудови моделі/проведення тесту

Система Scoring Machine створює скорингові моделі та тести до них через завантаження excel-файлів з розширенням .xls / .xlsx, але при цьому дуже важливо, щоб файли, що використовуються, відповідали вимогам для коректного аналізу і, бажано, щоб користувач також дотримувався і рекомендацій під час формування файлу та підготовки даних, щоб модель була якомога ефективнішою.

Підготовка та збір даних для створення скорингової моделі та тестування. Загальна інформація

В основі побудови скорингових карток лежать статистичні моделі. Для їх побудови має бути достатня та якісна інформація про клієнтів. Якість вихідних статистичних даних для побудови статистичної моделі визначає її точність прогнозування та успіх розробки скорингової моделі загалом.
Розробка моделі скорингу будується на аналізі попереднього досвіду. Достатній обсяг інформації - це одна з головних передумов побудови моделі. Кількість даних може змінюватись в залежності від конкретних моделей, але в цілому дані повинні задовольняти вимоги статистичної значущості та випадковості. Вихідні дані для побудови моделі можуть містити внутрішні дані анкет, а також зовнішні дані, отримані від партнерів або навіть обчислювальні дані, які користувач/система користувача обчислює на своїй стороні (наприклад, різниця та періоди між зверненнями до компанії). Все, що ви знаєте, або можете дізнатися про клієнта на момент його звернення.
В ідеалі моделі скорингу повинні застосовуватися щодо тих же продуктів, сектору ринку та економічної ситуації, які лягли в основу даних про минулий досвід. Наприклад, відомості про споживчі кредити не можуть адекватно використовуватися при розробці скорингової картки з автокредитування. Ця вимога визначає період, протягом якого збираються дані. Історичний період даних для побудови моделі визначається, як правило, видом скорингу та видом продукту, видом клієнта. Це означає, що якщо клієнти у вас сегментуються, то важливо робити окремі скорингові картки не тільки для різних продуктів (кредит, кредитна картка, автокредит, збирання ранньої заборгованості, збирання пізньої заборгованості, реклама через email, реклама через sms, використання телемаркетингу), але і для різних сегментів клієнтів. Найпростіша сегментація клієнта: новий клієнт та повторний клієнт, який раніше вже користувався послугами компанії. Для них можуть бути важливими різні атрибути.
Тому найчастіше дає набагато кращий результат використання кількох скорингових карт та моделей.
Найкраще брати дані якомога свіжіші, але ті, де цільова подія вже була скоєна. Наприклад, ви видали кредит і ваша мета, щоб клієнт не вийшов на прострочення більше ніж 1 місяць. Тоді краще взяти дані за максимально великий період, але тільки за той період, де всі клієнти в теорії вже могли або закрити кредит, або вийти на прострочення. Бажано максимально уникати невизначеностей. Або ви робите смс-розсилку клієнтам, де цільове завдання отримати від них потрібну активність протягом тижня. Тоді ви зможете використовувати цих клієнтів для аналізу мінімум після закінчення тижня, не раніше.
Дані про певний тип клієнтів слід виключити з вихідної інформаційної бази. Це можуть бути нетипові клієнти — шахраї, співробітники, VIP клієнти, померлі клієнти, тобщо. Всі ті клієнти, які вибиваються із масовості чимось яскравим. Для кожного такого типу при необхідності краще будувати окрему скорингову модель.

Визначення залежної змінної

Вибір залежної змінної визначається метою побудови скорингової моделі. Наприклад, вихід або не вихід на прострочення, відгук на активність з певного каналу, придбання додаткового товару.На етапі визначення залежної змінної клієнтів ділять на три групи: «погані», «хороші» та «невизначені». Погані – ті, де була виконана поставлена бажана мета. Хороші – ті, де ціль виконана була. Невизначені - ті, де мета ще не могла бути виконана або за даними клієнтами мало даних, наприклад, не повна анкета з відсутністю безлічі атрибутів або неможливість обчислити більшість даних та ін.
При побудові скорингової картки використовуються лише клієнти, визначені як «погані» та «хороші». Невизначені клієнти виключаються із вихідних даних для створення моделі.

Формування навчальної та тестової вибірки

Доступні для побудови скорингової моделі інформаційні дані часто називають історичною вибіркою. Історична вибірка має якнайточніше відбивати досліджувану загальну сукупність клієнтів, тобто бути репрезентативною. Тому після підготовки цих даних про клієнтів, розбивки їх на різні сегменти за типами клієнта, регіону або продукту, можна переходити на наступний крок.
Для перевірки адекватності та точності передбачення скорингової моделі на етапі її розробки історичну вибірку необхідно поділити на дві групи:
- Навчальну вибірку - спостереження, за якими безпосередньо будувати модель;- Тестову або контрольну вибірку - спостереження, за якими буде відомо значення залежної змінної, але вони не братимуть участь у побудові моделі, а будуть використані для перевірки точності передбачення моделі.
Навчальна та контрольна вибірка повинна формуватися на основі механізму випадкового відбору зазвичай у співвідношенні 70-80% та 30-20% відповідно від вихідного обсягу історичної вибірки.Перевірка достовірності моделі полягає у її застосуванні та порівнянні результатів на контрольній та тестовій вибірці. Модель має давати коректні прогнози як на навчальної сукупності, а й у практиці у її застосуванні. Зазвичай використовують стратегію генералізації моделі з урахуванням двох вибірок. Схожі показники точності, отримані на навчальній та тестовій вибірці – ознака того, що на практиці скорингова модель працюватиме приблизно також.
Якщо якість моделі недостатня, можна змінити атрибути, вагу атрибутів або вагу коефіцієнтів для підсумкової оцінки, щоб змінити модель і повторно провести тест.

Визначення обсягу вибірки

Будувати модель можливо на залежностях, що повторюються. Відповідно, що більше буде вибірка, то краще. На практиці рекомендується вибірка розміром мінімально 5 000–10 000 клієнтів для побудови моделі. Але є практика побудови моделі та на 1 000 клієнтів. У будь-якому випадку постарайтеся використовувати максимальну кількість клієнтів, але за умови поділу на необхідні сегменти та виключення тих клієнтів, за якими дані не повні, як описано вище.
Найкраще, коли співвідношення хороших і поганих дотримується як 50/50, але, як правило, це неможливо. У жодному разі ми не рекомендуємо спеціально робити таке співвідношення для вибірки. Краще брати всіх за певний період, нехай навіть співвідношення поганих буде набагато менше до хороших.

Після підготовки цих даних можна знайти необхідні залежності та побудувати скорингову модель, завдяки чому значно покращити досягнення бажаних результатів зі зниженням витрат.

Вимоги до файлу

Для завантаження даних та побудови моделі та тестування Ви підготували всі дані, і вони у Вас готові до аналізу. Тепер потрібно підготувати файл під певні вимоги, щоб модель була побудована.

1. Тип файлу повинен бути .xls або .xlsx збережений як книга Excel і ніяк інакше.

2. Перша колонка у файлі має бути заповнена позначкою хорошого чи поганого клієнта. Наприклад, GOOD або BAD або інші значення, вказані в налаштуваннях.

3. Використовуйте лише дані, які відомі до моменту прийняття рішення, для якого Ви будуєте скорингову модель.

4. Для аналізу даних кожне звернення – 1 рядок. А це означає, що не потрібно поєднувати клієнта в один рядок, якщо клієнт звертався кілька разів. У таких випадках рядків має бути стільки, скільки і звернень і дані у файлі повинні бути актуальні саме на момент звернення клієнта.

5. Якісь персональні дані для аналізу не потрібні, використовуватися вони все одно не будуть для побудови моделі, тому краще їх не включати до файлу. Наприклад, ім'я, номер телефону та інші персональні дані.

6. Не можна залишати порожні комірки, пропущені дані! Якщо є порожній осередок – запишіть туди якесь інше значення, якусь свою константу, наприклад null або unknown. Це важливо! У завантажуваному файлі пропусків бути не повинно, всі осередки, якщо в рядку є дані повинні бути заповнені чимось.

7. Варіантів значень рекомендується не більше 20–30, а найкраще, щоб варіантів значень атрибуту було до 10. Це означає, якщо якийсь із атрибутів складається з безлічі варіантів, то краще заповнити ці дані групами значень. Наприклад вік клієнта. Цей атрибут краще подавати групами по кілька років, наприклад: 18–21; 22-25; 26–30… Але це не означає, що якщо потрібно, то не можна використовувати безліч значень, просто, як правило, це спотворить модель і не дасть кращого результату.

8. Для вивантаження тестової моделі обов'язково звертайте увагу, що атрибути та їх значення у тестовій моделі повинні мати повністю ті ж назви, що й у самій скоринговій моделі. Якщо скорингова модель об'єднала якісь атрибути, то вам це робити не потрібно самостійно, Scoring Machine під час тестування сама поєднає ті ж самі атрибути, якщо це потрібно.

Приклад завантажених даних:

Illustration

Коли дані готові, якщо ви не плануєте використовувати один і той же файл і для побудови моделі та для тесту, то відразу рекомендуємо його і розділити 80/20 або 90/10, де перша частина – це кількість відсотків для навчальної вибірки, з якою будете будувати модель, а друга частина це тестова вибірка, на якій ви перевірятимете вже готову модель.

Як тільки дані будуть готові, можете сміливо приступати до побудови моделі скорингу за допомогою Scoring Machine, Ви здивуєтеся на скільки це легко!