Основные задачи
  • Разрабатывать и поддерживать Inference Platform-as-a-Service
  • Автоматизировать жизненный цикла ML-моделей - от регистрации до сервинга модели
  • Создавать новые продукты для автоматизации ML-разработки
  • Разрабатывать платформенные сервисы для ML
  • Исследовать новые платформы/инструменты для внедрения их в продукты компании
  • Продвигать и развивать best practices в области MLOps
Мы ожидаем

ML / Inference трек

  • Опыт развертывания и эксплуатации Kubernetes для инференса моделей (GPU/CPU)
  • Практический опыт работы с MLOps-инструментами деплоя и эксплуатации моделей (Triton Inference Server, BentoML или аналогов)
  • Опыт работы с инференс-движками в Kubernetes
  • Знание принципов автоскейлинга, балансировки нагрузки и маршрутизации трафика в контексте ML-сервисов
  • Понимание принципов мониторинга качества и параметров ML-моделей
  • Опыт настройки и использования GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-Enabled Docker (nvidia-container-toolkit)
  • Понимание жизненного цикла ML-экспериментов и их трекинга (MLflow/Clearml или аналоги)
  • Уверенное знание Python

OPS трек

  • Экспертные знания Kubernetes: контроллеры, операторы, HPA, работа с GPU (allocation, driver’s)
  • Опыт автоматизации инфраструктуры и Infrastructure as Code (Terraform, GitOps-подходы)
  • Опыт работы с системами контроля версий и CI/CD (GitLab, GitHub)
  • Опыт работы с Docker и OCI-образами
  • Администрирование Linux: от настройки до мониторинга и диагностики проблем
  • Опыт внедрения и работы со стеком мониторинга (Prometheus Stack)
  • Навыки безопасной работы с чувствительными данными (секреты, токены, сертификаты)
Будет плюсом
  • Опыт работы с Jupyter-средами
  • Знание REST/gRPC, HTTP-трассировки и дебага инференс-эндпоинтов
  • Опыт разработки проектов по работе с данными и ML на Python
  • Знание фреймворков ML/DL: PyTorch, TensorFlow, HuggingFace Transformers
  • Знание оркестраторов задач (Prefect, AirFlow)
  • Понимание принципов тестирования (Unit, Integration, System)
  • Понимание основ машинного обучения, его методов, а также сопряженных с ним дисциплин
  • Опыт поддержки production AI-сервисов
  • Желание помогать клиентам в решении их задач