Чем придется заниматься:
- Развертывание и масштабирование в продакшене.
- Контейнеризация ML-моделей с использованием Docker и развертывание в Kubernetes кластерах.
- Настройка и управление оркестрацией ML-пайплайнов через Apache Airflow.
- Обеспечение масштабируемости и отказоустойчивости ML-сервисов в on-premise средах.
Мониторинг и оптимизация:
- Подключение сервисов к системам мониторинга и журналирования.
- Анализ и устранение инцидентов в работе ML-сервисов на третьей линии поддержки.
- Оптимизация использования вычислительных ресурсов и автомасштабирование рабочих нагрузок.
Интеграция и автоматизация:
- Разработка интеграций между ML-сервисами через REST API и системы обмена сообщениями (Kafka).
- Создание автоматизированных пайплайнов для обработки данных, feature engineering и тестирования моделей.
- Внедрение подходов Infrastructure as Code для управления ML-инфраструктурой.
Требования и навыки:
Технические компетенции:
- Глубокое владение Python (от 3 лет) с пониманием принципов написания production-ready кода.
- Опыт работы с контейнеризацией (Docker) и оркестрацией (Kubernetes) для развертывания ML-моделей.
- Уверенное владение Apache Airflow для оркестрации ML-пайплайнов.
DevOps и инфраструктурные навыки:
- Понимание построения CI/CD пайплайнов для ML-решений (GitLab CI, GitHub Actions).
- Навыки работы с системами мониторинга (Prometheus, Grafana) и централизованного логирования.
