Крипта — это внутренний сервис, который строит анонимизированные профили сотен миллионов пользователей на основе их поведения в интернете. Данные Крипты используются многими сервисами Яндекса для персонализации, в том числе для подбора наиболее релевантной рекламы. Склейка — это набор решений, который позволяет связывать разные браузеры и устройства одного пользователя, а также находить связи между пользователями. Склейка помогает Яндексу учитывать историю поведения пользователя на разных устройствах для улучшения персонализации. Для того чтобы склейка была полной и точной, мы активно используем машинное обучение.

Обязанности:

Анализ графовых данных и выявление паттернов
Вам предстоит погрузиться в анализ графов, связывающих миллиарды идентификаторов устройств и пользователей. Ваша цель — выявлять скрытые поведенческие паттерны и закономерности, которые помогут точнее понимать, какие устройства и аккаунты принадлежат одному человеку или связаны между собой. Обучение и внедрение ML-моделей для склейки
Ключевая часть работы — это разработка, обучение и совершенствование ML-моделей (от классических алгоритмов до современных нейросетей). Вы будете улучшать качество склейки, чтобы обеспечить максимально полную и точную картину поведения каждого пользователя Яндекса. Внедрение ML в высоконагруженные сервисы
Вам предстоит внедрять ваши ML-решения в реальные production-сервисы, которые обрабатывают колоссальные объёмы данных — миллионы запросов в секунду, и оптимизировать их. Задача — обеспечить стабильность, скорость и эффективность работы этих систем, чтобы сервис не захлебнулся под нагрузкой. Улучшение ключевых бизнес-метрик персонализации
Ваша работа будет напрямую связана с повышением качества персонализации, особенно в рекламных сервисах Яндекса. Вы будете постоянно работать над улучшением ключевых метрик сервиса Склейка, что в итоге приведёт к более релевантной рекламе для пользователей и росту доходов компании. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Глубоко разбираетесь в ML: уверенно применяете классические методы и нейросети
  • Владеете Python (Pandas, NumPy, CatBoost, Scikit-learn, PyTorch), SQL (оптимизация тяжёлых запросов), C++ (для высоконагруженных компонентов)
  • Работаете с Big Data: имеете опыт обработки крупных распределённых данных

Дополнительные требования:

  • Работали с графовыми данными
  • Понимаете веб-технологии: устройство cookie, user agent, механизмы трекинга