Мы команда, которая индексирует интернет и превращает разрозненные страницы в структурированную товарную базу, состоящую из десятков миллиардов документов, в условиях десятков тысяч обновлений в секунду. Вы будете заниматься разработкой ключевых компонентов системы, связанных с краулингом, хранением и обработкой данных.

Обязанности:

Индексация и краулинг
Вы будете реализовывать стратегии планирования и приоритизации обхода интернета: разрабатывать модули потоковой обработки данных, писать продакшен-код на C++ для высоконагруженных сервисов, интегрировать внешние B2B-источники данных. Хранение и обработка данных
Предстоит развивать пайплайны хранения и обработки данных на базе YTsaurus: работать с данными масштаба десятков миллиардов записей и терабайтами данных, обеспечивать консистентность и актуальность данных, доставлять данные в поисковые продукты. Интеграция алгоритмов и ML
Нужно будет внедрять ML-модели в продакшен-пайплайны: участвовать в разработке и оптимизации алгоритмов обработки данных, оптимизировать потребляемые ресурсы. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

  • Разрабатывали высоконагруженные сервисы и работали с большими данными
  • Уверенно владеете C++
  • Понимаете сетевые взаимодействия
  • Умеете писать надёжный и производительный код

Дополнительные требования:

  • Разрабатывали краулеры или поисковые системы
  • Интегрировали ML-модели в продакшен
  • Понимаете алгоритмы ранжирования и обработки данных
  • Знаете классические ML и NLP или хотите их изучить