Обязанности:
Индексация и краулингВы будете реализовывать стратегии планирования и приоритизации обхода интернета: разрабатывать модули потоковой обработки данных, писать продакшен-код на C++ для высоконагруженных сервисов, интегрировать внешние B2B-источники данных. Хранение и обработка данных
Предстоит развивать пайплайны хранения и обработки данных на базе YTsaurus: работать с данными масштаба десятков миллиардов записей и терабайтами данных, обеспечивать консистентность и актуальность данных, доставлять данные в поисковые продукты. Интеграция алгоритмов и ML
Нужно будет внедрять ML-модели в продакшен-пайплайны: участвовать в разработке и оптимизации алгоритмов обработки данных, оптимизировать потребляемые ресурсы. Больше о бэкенде в Яндексе — в канале Yandex for Backend
Ключевые навыки:
- Разрабатывали высоконагруженные сервисы и работали с большими данными
- Уверенно владеете C++
- Понимаете сетевые взаимодействия
- Умеете писать надёжный и производительный код
Дополнительные требования:
- Разрабатывали краулеры или поисковые системы
- Интегрировали ML-модели в продакшен
- Понимаете алгоритмы ранжирования и обработки данных
- Знаете классические ML и NLP или хотите их изучить
