Обязанности:
Повышать эффективность и отказоустойчивость LLM-инфраструктурыВы будете оптимизировать сервинг моделей, пайплайны дообучения и крауд-оркестрации. Развивать observability и мониторинги
Вы станете улучшать логирование, алертинг и метрики для LLM-задач и систем разметки. Разрабатывать и поддерживать ML-инфраструктуру для дообучения моделей
Вам предстоит автоматизировать циклы обучения, собирать и валидировать данные. Отвечать за стабильность и надёжность LLM-компонент инфраструктуры разметки данных
Важно продумывать, как обеспечить максимальную стабильность пайплайнов, учитывая возможные слабые места системы.
Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Можете уверенно выполнять system design простых систем
- Разрабатывали бэкенды ML-сервисов
- Понимаете принципы сервинга LLM
- Выполняли SRE-задачи
- Пишете хороший, поддерживаемый код на Python
- Умеете быстро изучать новое
- Готовы проявлять ownership в своей зоне ответственности
