Система Scoring Machine. Тестирование скоринговой модели
Тестирование скоринговой модели
Блок «Тестирование скоринговой модели» содержит разделы:
- Создание нового теста скоринговой модели;
- Список тестов скоринговых моделей;
- Настройки тестирования скоринговых моделей.
В разделе «Настройки тестирования скоринговых моделей» можно настроить параметры построения теста скоринговой модели.
Здесь можно изменить количество строк, на которые будет разбит результат тестирования скоринговой модели. Результаты будут сгруппированы по указанному количеству строк. Но мы рекомендуем не слишком сильно увеличивать количество строк, чтобы лучше видеть общую картину. Мы рекомендуем использовать от 10 до 25 строк максимум. А также здесь можно тоже, как и в настройках создания скоринга, изменить как система должна понимать хороший результат и плохой результат у вас в файле в первой колонке.
В разделе «Создание нового теста скоринговой модели» создается сам тест для активной скоринговой модели. Вам на экране отобразится какая скоринговая модель сейчас активна и для какой будет произведен тест.
Стоит обратить внимание, что в зависимости от типа подписки у Вас будет ограниченное количество сохраненных тестов к одно модели. А это значит, если пользователь достиг лимита, то перед началом построения нового теста будет удален тест, который был создан раньше остальных. Поэтому рекомендуем контролировать актуальные и не актуальные тесты самостоятельно и удалять неактуальные тесты. Лимит в данном случае для каждой модели отдельно, а это значит если у пользователя лимит тестов на одну модель – 20, а моделей при этом 10, то пользователь может сохранять до 20 тестов на одну модель, в сумме выйдет 200 сохраненных тестов.
Чтобы создать тест необходимо выбрать файл с данными для анализа с расширением .xls или .xlsx у себя на компьютере и загрузить его в систему «Scoring Machine». После этого нажать на «Создать новый тест». Система сделает ряд проверок по файлу, если при первом наблюдении будут выявлены какие-то несоответствия к требованиям для файла, отобразится ошибка. После недолгой проверки файла Scoring Machine начнет анализ файла, о чем отобразит уведомление.
Длительность создания теста зависит от объема данных для анализа. Чем больше файл с данными, тем дольше система будет проводить анализ и создавать тест. Это значит, если проводится анализ для конкретной модели и пользователь уже видит какие именно атрибуты в модели так или иначе используются, то смело можно удалить ненужные столбцы.
Очень важным процессом перед созданием теста является подготовка файла правильно, чтобы система могла качественнее его проанализировать.Дополнительно к общим требованиям и рекомендациям по файлу пользователь должен обратить внимание, что в файле для теста должны быть те же атрибуты, которые отобраны в моделе и называться атрибуты (колонки в файле) и сами значения атрибутов должны так же, как они отобраны в моделе, а значит назывались во время построения модели.
Со всеми требованиями к файлу можно ознакомиться здесь.
После того, как Scoring Machine завершит создавать тест, он сразу же отобразится в общем списке тестов, а также пользователю на его email будет отправлено электронное письмо с уведомлением о завершении процесса создания теста. Если тест по какой-то причине не будет создан (например, ошибки в файле, наличие пустых ячеек там, где их быть не должно), то об этом пользователю также будет отправлено электронное письмо.
В разделе «Список тестов скоринговых моделей» отображены уже созданные и сохраненные тесты в Scoring Machine. Результаты отображены по 10 тестов на страницу, чтобы перейти на следующую/предыдущую/последнюю/первую страницу необходимо нажать на соответствующий символ внизу таблицы.
Для поиска конкретного теста, если их много, можно воспользоваться поиском. Для этого необходимо нажать на кнопку «Поиск» в верхнем правом углу.
Для перехода на нужный тест достаточно нажать на строку в таблице с этим тестом.
При переходе в тест будет отображены название скоринговой модели, к которой был проведен тест, название и описание теста, итоговый результат Джини тестирования.
Название теста и его описание указывается пользователем по желанию. Эти значения нужны исключительно пользователю, чтобы ориентироваться что это за тест на том или другом этапе. Изменить название теста и/или описание можно через «Действия». Изменить рекомендуется их сразу же после создания теста.
Также ниже на странице в таблице отображены результаты тестирования. Результаты проверки сгруппированы на то количество строк, которое было указано в настройках тестирования на момент произведения теста.
Детальнее о значениях в таблице по результатам тестирования:
1. Количество баллов – эта колонка отображает информацию по тем записям в файле, которые набрали указанное количество баллов.2. Всего записей – общее количество записей в файле с указанным количеством набранных баллов.3. Количество хороших – количество записей, отмеченных как «хороший» в файле с указанным количеством набранных баллов.4. Количество плохих - количество записей, отмеченных как «плохой» в файле с указанным количеством набранных баллов.5. Доля плохих, % - доля плохих по отношению к общему количеству записей с указанным количеством набранных баллов.6. Накопленное. Общее количество – общее количество записей накопительным итогом. Количество записей в текущей строке + все предыдущие строки.7. Накопленное. Всего, % - доля общего количества с накопительным итогом от общего количества записей во всем файле.8. Накопленное. Количество хороших - количество хороших записей накопительным итогом. Количество хороших записей в текущей строке + все предыдущие строки.9. Накопленное. Хорошие, % - доля количества хороших с накопительным итогом от общего количества хороших записей во всем файле.10. Накопленное. Количество плохих - количество плохих записей накопительным итогом. Количество плохих записей в текущей строке + все предыдущие строки.11. Накопленное. Плохие, % - доля количества плохих с накопительным итогом от общего количества плохих записей во всем файле.12. Индекс Джини – основной показатель прогнозной силы модели. Важно обращать внимание на общий Джини в самом низу таблицы. Чем выше результат, тем лучше и выше прогнозная сила модели.
Достаточно качественной моделью можно назвать, если тестирование показывает результат Джини от 30% и выше. Если результат ниже, то модель, как правило, использовать смысла нет.Но какая прогнозная сила должна быть еще многое зависит от сферы деятельности и возможностей отбора атрибутов для анализа.Если модель будет с результатом Джини выше 50% или 60%, то это уже достаточно сильная прогнозная модель практически для любой сферы деятельности.
Через «Действия» можно редактировать название и описание, экспортировать все данные теста в excel-файл, удалить тест.
По итогам проведения тестирования необходимо его проанализировать и определить достаточно ли хорошая модель или необходимо ее еще дорабатывать и перестраивать, а также определить какие решения можно принимать на основании данной модели.Детальнее здесь.