Обязанности:
Поддержка и развитие средства диагностики рекомендацийРекомендательная система опирается на большое количество различных сигналов о сессии пользователя, кликах, покупках, просмотрах, информации о блюде, о товарах ритейла и т. д. Для того чтобы ответить на вопрос, почему система дала такую рекомендацию, мы используем внутренний инструмент, который визуально показывает все шаги рекомендательной системы с различной отладочной информацией. Мы развиваем и поддерживаем этот инструмент для своих задач. Сейчас стоит острая проблема быстрого получения всех атрибутов рекомендации, которую мы дали пользователям Яндекса, то есть узкому кругу пользователей. Нужно придумать механизм доставки и хранения данных, чтобы реализовать быстрый и удобный доступ к данным отладки. Развитие инфраструктуры для реактивной поставки сигналов
Рекомендательные системы полагаются на историю пользовательских действий внутри приложения. Возможность доставлять события с задержкой до нескольких секунд позволит учитывать предпочтения пользователя в рамках сессии и повысить качество рекомендаций. Проект подразумевает разработку стриминга событий на базе Flink, хранение и раздачу профилей пользователей из key-value-хранилищ Яндекса. Переезд поискового ранжирования на DJ-движок
Код поискового ранжирования был написан N лет назад — существует большая проблема с поддержкой этого кода и с улучшением метрик ранжирования. В других наших механизмах ранжирования, таких как показ ресторанов на главной странице Яндекса и ритейл-товаров на различных поверхностях, уже давно используется универсальный внутренний фреймворк ранжирования со своим пайплайном и механикой сбора данных. Наша задача — перевезти логику ранжирования на этот фреймворк, не уронить при этом метрики качества и наладить все механизмы сбора и обработки данных для обучения и применения в онлайне. **Больше об аналитике в Яндексе — в канале Yandex for Analytics**
Ключевые навыки:
- Понимаете ML и концепции MLOps на базовом уровне
- Разрабатывали бэкенд-сервисы на Python, C++, Java или Go
- Знаете или готовы освоить C++
- Обрабатывали большие объёмы данных с помощью Hadoop, Spark или Hive
Дополнительные требования:
- Работали с ML-сервисами в продакшене
- Писали стриминговые приложения на Spark Structured Streaming, Flink или Kafka Streams
- Имеете опыт работы в инфраструктурной команде
