ML-разработчик в инфраструктуру данных для еком-сценариев

Мы — команда, которая превращает неструктурированный интернет в понятную и полезную товарную базу. Мы наполняем хранилище десятками миллиардов документов, обрабатывая десятки тысяч обновлений в секунду. Много экспериментируем, проверяем гипотезы и фокусируемся на результате. Все собранные нами данные напрямую влияют на поисковую выдачу и видны всем пользователям, поэтому требования к качеству — максимально высокие. Почему это интересно: * Масштабы: десятки миллиардов документов и десятки тысяч обновлений в секунду. * Простор для творчества: можно использовать любые подходы. * Сильное влияние на продукт: результаты работы напрямую влияют на пользовательский опыт и бизнес-метрики. * Уникальная задача: на рынке нет аналогичных сервисов, которые бы ставили перед собой цель обрабатывать и структурировать все товарные страницы в интернете быстро, полно и точно. Примеры задач: * Как на потоке определять, что страница — товарная, и извлекать из неё все полезные данные? * Как приоритизировать обход, чтобы данные были максимально актуальными? * Как автоматически понимать, что товар устарел или пропал из продажи? * Как гарантировать качество при масштабе в десятки миллиардов документов?

Обязанности:

ML для парсинга
Вам предстоит обучать и внедрять модели для извлечения названия, цены, наличия и других атрибутов товаров. Нужно будет использовать разные подходы: DSSM, CatBoost, BERT, LLM (YaGPT и аналоги), гибридные пайплайны (rule-based + ML). Качество данных
Вы будете строить системы оценки качества товарных документов, использовать ручную разметку и VLM для контроля качества. Эксперименты и R&D
Нужно будет искать баланс между скоростью и качеством моделей, экспериментировать с подходами — от регулярных выражений до LLM, выполнять полный цикл ML-разработки: сбор датасета → обучение → продакшн → мониторинг. Индексация и краулинг
Вы будете разрабатывать алгоритмы приоритизации обхода сайтов, максимизировать полноту и свежесть поискового индекса, работать со всей структурой сайтов: каталогами, карточками товаров и страницами с общей информацией. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

Уверенно понимаете классическое ML
Работали с NLP: BERT-подобными моделями, эмбеддингами и т. п.
Доводили модели до продакшна
Умеете формулировать ML-задачи и выбирать подходящие методы
Понимаете баланс между качеством и вычислительными ресурсами
Хотите работать с большими данными и сложными системами

Дополнительные требования:

Работали с LLM: YaGPT, GPT-подобными моделями
Знаете C++ и готовы писать на нём

Job description

Match