Мы команда, которая индексирует интернет и превращает разрозненные страницы в структурированную товарную базу, состоящую из десятков миллиардов документов, в условиях десятков тысяч обновлений в секунду. Вы будете заниматься разработкой ключевых компонентов системы, связанных с краулингом, хранением и обработкой данных.

Обязанности:

Индексация и краулинг
Вы будете реализовывать стратегии планирования и приоритизации обхода интернета: разрабатывать модули потоковой обработки данных, писать продакшен-код на C++ для высоконагруженных сервисов, интегрировать внешние B2B-источники данных. Хранение и обработка данных
Предстоит развивать пайплайны хранения и обработки данных на базе YTsaurus: работать с данными масштаба десятков миллиардов записей и терабайтами данных, обеспечивать консистентность и актуальность данных, доставлять данные в поисковые продукты. Интеграция алгоритмов и ML
Нужно будет внедрять ML-модели в продакшен-пайплайны: участвовать в разработке и оптимизации алгоритмов обработки данных, оптимизировать потребляемые ресурсы. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

Разрабатывали высоконагруженные сервисы и работали с большими данными
Уверенно владеете C++
Понимаете сетевые взаимодействия
Умеете писать надёжный и производительный код

Дополнительные требования:

Разрабатывали краулеры или поисковые системы
Интегрировали ML-модели в продакшен
Понимаете алгоритмы ранжирования и обработки данных
Знаете классические ML и NLP или хотите их изучить

Разработчик С++ в команду индексации еком

Описание вакансии