Поисковые технологии — ДНК бизнес-группы Поиска. Уже сейчас каждый пятый запрос в Поиске — выбор товаров. Этот сценарий даёт 40% прибыли. Мы работаем над инструментом, который ищет информацию по всем возможным магазинам в интернете (их более 60 тысяч). В инструмент, по планам, будет встроен удобный ИИ-консультант: он поможет сравнить товары по характеристикам или решить, где лучше купить. Ищем ML-разработчика, который будет развивать и поддерживать процессы обработки товарных данных: матчинг, дедубликацию и создание новых карточек товаров.

Обязанности:

Настройка процесса матчинга товаров
Наша команда готовит данные, позволяющие сравнивать цены на товары по всему е-cоm-каталогу России. Такая задача называется матчингом, и для её решения нужно сопоставить две карточки товаров от разных продавцов и выяснить, один ли это товар или разные. Сложность задачи в том, что для её решения нужно учесть все данные о товаре (картинки, описание, атрибуты), а также добиться стабильности обученных моделей, чтобы они корректно работали как на популярных девайсах типа iPhone 16 Pro Max, так и на нишевых типа сантехнических труб. Поддержка процесса дедубликации товаров
При решении задачи матчинга возникают два типа данных: товар (SKU) и офер. SKU — внутреннее представление товара, красивую карточку которого пользователь видит в интерфейсе. Офер — предложение о продаже товара конкретным продавцом. Для хорошего матчинга нужна качественная база SKU, не содержащая дублей. Сложность — в повышенных требованиях к качеству моделей: если сказать, что два SKU являются дублями, и ошибиться, есть риск «склеить» в один набор оферов разные по цене товары. Вам предстоит не допускать этого. Создание карточек SKU
Самая сложная задача — автоматическое создание карточек SKU. Вам нужно будет на основании оферов различных e-com-площадок создавать новые SKU, в карточках которых максимально подробно указана информация о товаре и размещены красивые и релевантные картинки. Сложность задачи заключается, во-первых, в том, чтобы не создать новый SKU, когда в базе уже имеется подходящий, а во-вторых — в заполнении карточки SKU объединённой информацией (иногда даже противоречивой) из нескольких оферов. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Имеете промышленный опыт с NLP
  • Оптимизировали ML-модели и внедряли их в продакшен
  • Строили автоматические пайплайны машинного обучения
  • Умеете формулировать задачи в терминах ML, решали ML-задачи на практике
  • Понимаете, как измерить результат, знакомы с разными алгоритмами и можете выбрать подходящий
  • Хорошо знаете Python и SQL, пишете чистый код

Дополнительные требования:

  • Имели дело с CV и LLM
  • Настраивали матчинг в крупном e-commerce
  • Занимались коммерческой разработкой
  • Владеете C++ или готовы на него перейти