Наша команда занимается сбором и подготовкой данных для еком-среза Поиска. Мы хотим улучшить сценарии Поиска, чтобы пользователям было проще находить информацию о товарах, магазинах и совершать покупки онлайн. При сборе данных, обогащении и поддержке их актуальными у нас возникают исследовательские и инфраструктурные задачи: production-код на C++20, работа с данными и создание MVP на Python, ML (подготовка и внедрение как YandexGPT, так и моделей поменьше — BERT, CatBoost, DSSM). Мы ищем опытных разработчиков на C++, чтобы сделать товарный Поиск ещё лучше и удобнее. Вы будете вместе с нами искать ответы на вопросы: как находить новые товары в интернете; как на потоке быстро понимать, что интернет-страница товарная, и доставать из неё всю полезную информацию; как приоритизировать индексацию страниц, чтобы информация была как можно актуальнее; как контролировать качество данных в базе.

Обязанности:

Использование связей «товары — каталоги» для наполнения товарной базы
Один из способов эффективно индексировать множество товарных страниц в интернете, которые постоянно меняются, — это естественные батчи: каталоги и листинги. А чтобы этот подход работал, нужно не только с высоким качеством получать информацию о товарах со страниц каталогов, но и в правильном порядке обходить страницы на уровне базы. Также вам предстоит поддерживать ключи для связи сущностей в базе (many-to-many), чтобы не нарушать консистентность данных. Определение доступности товаров для заказа
Чтобы сделать товарную выдачу релевантной, мы должны понимать, какие товары пользователь действительно может заказать. Для этого мы хотим быстро находить недоступные страницы и товары, которых уже нет в наличии, а также учитывать в рантайме региональность. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

  • Знаете классические алгоритмы и структуры данных
  • Пишете код на C++ и Python
  • Имеете опыт продуктовой разработки
  • Готовы учиться и осваивать новые технологии