Обязанности:
ML для парсингаВам предстоит обучать и внедрять модели для извлечения названия, цены, наличия и других атрибутов товаров. Нужно будет использовать разные подходы: DSSM, CatBoost, BERT, LLM (YaGPT и аналоги), гибридные пайплайны (rule-based + ML). Качество данных
Вы будете строить системы оценки качества товарных документов, использовать ручную разметку и VLM для контроля качества. Эксперименты и R&D
Нужно будет искать баланс между скоростью и качеством моделей, экспериментировать с подходами — от регулярных выражений до LLM, выполнять полный цикл ML-разработки: сбор датасета → обучение → продакшн → мониторинг. Индексация и краулинг
Вы будете разрабатывать алгоритмы приоритизации обхода сайтов, максимизировать полноту и свежесть поискового индекса, работать со всей структурой сайтов: каталогами, карточками товаров и страницами с общей информацией. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Уверенно понимаете классическое ML
- Работали с NLP: BERT-подобными моделями, эмбеддингами и т. п.
- Доводили модели до продакшна
- Умеете формулировать ML-задачи и выбирать подходящие методы
- Понимаете баланс между качеством и вычислительными ресурсами
- Хотите работать с большими данными и сложными системами
Дополнительные требования:
- Работали с LLM: YaGPT, GPT-подобными моделями
- Знаете C++ и готовы писать на нём
