Чем придется заниматься:

  • Развертывание и масштабирование в продакшене.
  • Контейнеризация ML-моделей с использованием Docker и развертывание в Kubernetes кластерах.
  • Настройка и управление оркестрацией ML-пайплайнов через Apache Airflow.
  • Обеспечение масштабируемости и отказоустойчивости ML-сервисов в on-premise средах.

Мониторинг и оптимизация:

  • Подключение сервисов к системам мониторинга и журналирования.
  • Анализ и устранение инцидентов в работе ML-сервисов на третьей линии поддержки.
  • Оптимизация использования вычислительных ресурсов и автомасштабирование рабочих нагрузок.

Интеграция и автоматизация:

  • Разработка интеграций между ML-сервисами через REST API и системы обмена сообщениями (Kafka).
  • Создание автоматизированных пайплайнов для обработки данных, feature engineering и тестирования моделей.
  • Внедрение подходов Infrastructure as Code для управления ML-инфраструктурой.

Требования и навыки:

Технические компетенции:

  • Глубокое владение Python (от 3 лет) с пониманием принципов написания production-ready кода.
  • Опыт работы с контейнеризацией (Docker) и оркестрацией (Kubernetes) для развертывания ML-моделей.
  • Уверенное владение Apache Airflow для оркестрации ML-пайплайнов.

DevOps и инфраструктурные навыки:

  • Понимание построения CI/CD пайплайнов для ML-решений (GitLab CI, GitHub Actions).
  • Навыки работы с системами мониторинга (Prometheus, Grafana) и централизованного логирования.