Как работает ML-модель скоринга
В основе Scorika — ML-модель, которая в реальном времени оценивает вероятность того, что посетитель сайта совершит целевое действие. Мы называем эту вероятность Purchase Intent Score (PIS). На её базе строятся виртуальные конверсии и оптимизация рекламы в Яндекс Директе.
Архитектура модели
Scorika использует ансамбль из двух уровней моделей:
- Baseline-модели — пред-обученные модели под ниши (eCommerce, B2B, медицина, недвижимость, EdTech и др.). Запускаются с первого дня, ещё до накопления собственных данных клиента
- Кастомная модель клиента — обучается на данных конкретного проекта. Постепенно перенимает оптимизацию у baseline и становится более точной
Такая комбинация даёт быстрый старт без «холодного» периода и постепенно растущую точность по мере накопления данных.
Алгоритмическая база — CatBoost
Под капотом — CatBoost (градиентный бустинг). Тот же класс алгоритмов, что использует сам Яндекс Директ. Это даёт совместимость по логике: сигналы, которые «понятны» нашей модели, в той же логике обрабатываются и автостратегией.
- Устойчивость к категориальным признакам — типы устройств, источники трафика, страницы каталога
- Защита от переобучения — встроенный механизм ordered boosting
- Быстрый инференс — score считается за миллисекунды на устройстве пользователя
- Интерпретируемость — можем посмотреть, какие именно признаки повлияли на конкретное предсказание
Что подаётся на вход модели
Модель получает 250+ признаков, разбитых на несколько групп:
- Поведенческие — скроллы, клики, время на странице, паттерны навигации
- Контекстные — тип устройства, источник трафика, день недели, время суток
- Структурные — какие именно страницы открывались, в какой последовательности
- Динамические — производные признаки: скорость скролла, частота возвратов, ритм кликов
- Анти-фрод — паттерны, характерные для ботов и спама
Обучение и переобучение
Модель обучается циклично. Раз в неделю мы запускаем переобучение на свежих данных клиента — это позволяет адаптироваться к сезонности, новым товарам, изменениям в дизайне сайта.
- Целевая переменная — реальные конверсии (заявки, покупки), полученные из Метрики
- Окно обучения — последние 4–8 недель в зависимости от объёма трафика
- Валидация — кросс-валидация по времени, чтобы избежать утечек будущего в прошлое
- Калибровка — Platt scaling, чтобы выход модели был корректной вероятностью, а не просто скором
Безопасность и изоляция
- Собственная инфраструктура — обучение и инференс крутятся на изолированных серверах Scorika с аппаратным шифрованием и архитектурой Zero-Trust
- Изоляция данных — у каждого клиента отдельный контур, доступ между проектами исключён
- Шифрование — передача по TLS 1.3, хранение — с шифрованием at rest
- Соответствие 152-ФЗ — модель работает исключительно с анонимными поведенческими данными, без персональной информации
Контрастность модели — главный индикатор качества
Контрастность (model contrast) — это способность модели чётко отличать пользователей с высокой вероятностью конверсии от тех, кто пришёл случайно. Именно она определяет, насколько прогнозы полезны для оптимизации рекламы.
Измеряется контрастность через отношение конверсии (CR) в верхних квантилях скора к CR в нижних. У хорошо откалиброванной модели топ-10% по Purchase Intent Score конвертируются в 5–10 раз чаще, чем нижние 10%.
- Высокая контрастность — CR в верхнем дециле в 5–10× выше, чем в нижнем. Модель уверенно отделяет «своих» от случайных
- Низкая контрастность — конверсии распределены ровно по всему скору. Все пользователи выглядят одинаково, ставки теряют смысл, бюджет размазывается ровным слоем
- Почему это критично для Директа — если модель не отделяет одних от других, передавать в Метрику разные ценности бессмысленно. Алгоритму Директа просто нечего ранжировать
Чем выше контрастность → тем точнее расходуется бюджет. Scorika достигает её за счёт сигналов, которых нет у Яндекс Директа: поведения при скролле, динамики кликов и наведений, последовательности шагов внутри сессии, микроиндикаторов вовлечённости. Эти данные формируют дополнительное измерение, недоступное стандартной аналитике, и позволяют модели уверенно разводить аудиторию на сегменты с радикально разной вероятностью покупки.
Высокая контрастность — это фундамент. Без неё любая стратегия в Директе работает наугад. Scorika обеспечивает её за счёт сигналов, которые рекламная система просто не видит.
Почему 10 конверсий в неделю — порог обучения
ML-модель оперирует вероятностями, а вероятности требуют статистической значимости. Когда данных мало, модель не отличает реальный паттерн от шума и начинает «галлюцинировать» — прогнозы скачут от запуска к запуску.
- Статистическая значимость — при менее чем 10 конверсиях в неделю доверительный интервал размывается до бесполезного. Модель не может утверждать, что найденная закономерность реальна, а не артефакт малой выборки
- Требования CatBoost — алгоритм строит деревья решений, и каждый лист требует определённого минимума примеров. При 5–7 конверсиях в неделю в листе оказывается 1–2 примера — это прямой путь к переобучению
- При 5–7 конверсиях — модель становится нестабильной: ставки прыгают между обучениями, оптимизация работает рывками, эффективность кампании постепенно деградирует
Что происходит, когда данных не хватает. Алгоритм Директа уходит в «консервативный» режим: режет ставки, сужает охват, минимизирует риски. На практике вы получаете стабильный, но низкий поток заявок, который не разгоняется даже при увеличении бюджета. Кампания просто перестаёт масштабироваться.
Как это решает Scorika. Виртуальные конверсии дают модели в 10–20 раз больше обучающих сигналов. Вместо 3–5 конверсий в неделю алгоритм видит 30–100 размеченных событий с градиентом ценности. Этого уже достаточно для построения устойчивых деревьев: ставки стабилизируются, кампания выходит из «осторожного» режима и начинает реально оптимизироваться.
Пример Интернет-магазин с 4 заявками в неделю — кампания в Директе «зависла», CPA не падает, алгоритм работает вслепую. После подключения Scorika: 4 реальных + 60 виртуальных конверсий в неделю. Алгоритм получает нужный объём данных, ставки выравниваются, CPA снижается на 25% уже за 3 недели.Распределение ценности и калибровка
Алгоритм Яндекс Директа обучается на ценностях конверсий. И качество обучения напрямую зависит от того, как эти ценности распределены в обучающей выборке.
- Что любит алгоритм — низкую дисперсию. Когда ценности «ровные» и предсказуемые, модели проще ухватить закономерность: каждый новый пример укрепляет паттерн, а не вносит хаос
- Чем мешают выбросы — единичные сделки с экстремальной ценностью (например, заказ на 500 000 ₽ при среднем чеке 15 000 ₽) ломают обучение. Алгоритм начинает гнаться за такими аномалиями в ущерб устойчивости на основной массе трафика
- Оптимальная картина — много конверсий со средней ценностью даёт более качественную оптимизацию, чем редкие сделки с экстремальными суммами
Как это учитывает Scorika. Виртуальные конверсии формируют сглаженное распределение — без резких пиков. Ценность каждой такой конверсии рассчитывается из вероятности целевого действия и калибруется так, чтобы суммарный вес виртуальных конверсий совпадал с весом реальных. Директ получает «чистый» обучающий сигнал: больше размеченных примеров, предсказуемое распределение, отсутствие аномалий, которые могли бы дестабилизировать оптимизацию.
Принцип калибровки. Суммарная ценность виртуальных конверсий стремится к суммарной ценности реальных. Алгоритм Директа получает в разы больше обучающих точек — но общий «вес» данных остаётся сбалансированным.
Чем это лучше стандартной аналитики
Обычная аналитика
- Видит только финальные конверсии
- Не знает, что происходит до отправки заявки
- Требует большого объёма заявок, чтобы работать
- Не обучается на поведении
ML-пайплайн Scorika
- Считывает намерение задолго до заявки
- Анализирует 250+ поведенческих признаков в каждой сессии
- Работает уже при 20–50 конверсиях в месяц
- Непрерывно дообучается на свежих данных
Что происходит с прогнозами дальше
- Когда посетитель набирает высокий Purchase Intent Score, Scorika отправляет виртуальную конверсию в Яндекс Метрику
- Директ обучается на этих сигналах и получает в 3–10 раз больше данных о действительно целевой аудитории
- Итог — снижение CPA на 20–30% и рост конверсий без увеличения рекламного бюджета