Ищем сильного инженера для работы над инфраструктурой LLM-разметки данных (крауда). LLM-разметка критически важна для качества Поиска — основного сервиса Яндекса. Наша команда занимается семантической частью Поиска. Мы: * Помогаем Поиску лучше понимать запросы пользователей, веб-документы и их отношение * Работаем на стыке NLP и ранжирования * Помогаем строить агентские системы Яндекса * Используем сотни GPU для экспериментов * Влияем релизами на десятки миллионов людей

Обязанности:

Повышать эффективность и отказоустойчивость LLM-инфраструктуры
Вы будете оптимизировать сервинг моделей, пайплайны дообучения и крауд-оркестрации. Развивать observability и мониторинги
Вы станете улучшать логирование, алертинг и метрики для LLM-задач и систем разметки. Разрабатывать и поддерживать ML-инфраструктуру для дообучения моделей
Вам предстоит автоматизировать циклы обучения, собирать и валидировать данные. Отвечать за стабильность и надёжность LLM-компонент инфраструктуры разметки данных
Важно продумывать, как обеспечить максимальную стабильность пайплайнов, учитывая возможные слабые места системы.
Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Можете уверенно выполнять system design простых систем
  • Разрабатывали бэкенды ML-сервисов
  • Понимаете принципы сервинга LLM
  • Выполняли SRE-задачи
  • Пишете хороший, поддерживаемый код на Python
  • Умеете быстро изучать новое
  • Готовы проявлять ownership в своей зоне ответственности