Мы развиваем AI направление и создаем прикладные сервисы на базе GenAI, LLM, RAG, embeddings, vector search и AI агентов. Команда отвечает за полный путь AI сервиса: архитектуру, backend интеграции, деплой, мониторинг, поддержку production и развитие после запуска. В работе много инженерных задач вокруг inference, API, очередей, хранилищ, векторного поиска, локальных моделей и внешних LLM провайдеров. Ищем AI Platform Engineer, который будет помогать AI команде быстрее доводить продукты до production и держать их стабильными. В этой роли важно уверенно работать с инфраструктурой и кодом: понимать, как сервис собирается, запускается, обрабатывает запросы, использует зависимости, работает с моделью и ведет себя под нагрузкой.

Обязанности:

  • Развивать и поддерживать платформенную инфраструктуру для AI и ML сервисов в cloud и on-prem окружениях.
  • Работать с Kubernetes окружениями для AI сервисов: Azure AKS, AWS EKS или self-hosted кластеры, namespaces, ingress, storage, secrets, autoscaling и resource management.
  • Разворачивать local LLM и open source модели в закрытом контуре: готовить GPU окружение, настраивать model serving, управлять ресурсами и следить за стабильностью inference.
  • Работать с GPU инфраструктурой для AI workloads: NVIDIA DGX или аналогичные GPU серверы, CUDA runtime, драйверы, NVIDIA Container Toolkit, GPU Operator, node labels, taints, tolerations и resource requests.
  • Разворачивать и сопровождать инфраструктурные компоненты и хранилища, которые нужны AI сервисам: PostgreSQL, Redis, S3 совместимые хранилища, Qdrant, Milvus или аналогичные vector database решения.
  • Настраивать деплой AI и ML сервисов, включая локальный inference, vLLM, TGI, Ollama, HuggingFace Transformers и интеграции с облачными LLM провайдерами, включая OpenAI и аналогичные сервисы.
  • Строить и поддерживать CI/CD процессы в GitLab CI, GitHub Actions или Jenkins.
  • Контейнеризировать сервисы, оптимизировать сборку образов, деплой, scaling и управление ресурсами.
  • Настраивать мониторинг, логирование, трассировку и алертинг с использованием Prometheus, Grafana, Loki и OpenTelemetry.
  • Поддерживать production среду: разбирать инциденты, находить причины сбоев, работать с логами, метриками, конфигурацией, сетями, ресурсами и кодом приложения.
  • Помогать Data Science и backend командам быстрее выпускать AI сервисы и поддерживать стабильный ML serving.
  • Автоматизировать рутинные операции, улучшать шаблоны деплоя, Helm чарты, скрипты и внутренние инструменты команды.
Требования:
  • Опыт работы DevOps, Cloud, Platform или System Engineer от 2 лет.
  • Практические навыки Python или Bash для автоматизации, написания скриптов и работы с сервисным кодом.
  • Понимание backend сервисов на Python: API, зависимости, конфигурация, env, логирование, обработка ошибок. Опыт с FastAPI или Flask будет плюсом.
  • Практический опыт работы с Kubernetes: деплой, конфигурация, networking, storage, scaling и troubleshooting.
  • Опыт работы с облачной инфраструктурой Azure или AWS, желательно с managed Kubernetes: AKS или EKS.
  • Опыт развертывания local LLM или ML моделей в on-prem окружении либо на GPU серверах.
  • Понимание GPU стека для AI workloads: CUDA, NVIDIA drivers, NVIDIA Container Toolkit, GPU Operator, device plugins, resource limits и особенности запуска контейнеров с GPU.
  • Опыт работы с model serving инструментами: vLLM, TGI, Ollama, HuggingFace Transformers или аналогичные решения.
  • Опыт работы с Docker: сети, volumes, multi stage builds, сборка и запуск контейнеров.
  • Опыт работы с Terraform, Ansible или Helm.
  • Опыт построения CI/CD процессов и понимание Git flow.
  • Опыт настройки мониторинга и логирования на базе Prometheus, Grafana и Loki.
  • Опыт развертывания или сопровождения баз данных и хранилищ для приложений: PostgreSQL, Redis, S3 совместимые решения.
  • Понимание задач вокруг векторных БД и AI storage слоя: Qdrant, Milvus или аналогичные решения.
  • Умение диагностировать и устранять сбои в production среде.
  • Готовность погружаться в код, логи приложения, метрики и поведение сервиса в runtime.

Будет плюсом:

  • Опыт backend разработки на Python в production проектах.
  • Опыт работы с NVIDIA DGX, MIG, GPU partitioning или multi GPU serving.
  • Опыт с Kubeflow.
  • Базовое понимание Apache Spark.
  • Опыт работы с Kafka, RabbitMQ, Celery или другими очередями и брокерами.
  • Опыт работы с Vault, KMS и управлением секретами.
  • Опыт развертывания решений в закрытом контуре.

В сопроводительном письме, пожалуйста, укажите свои зарплатные ожидания, спасибо! ❤️

Наши условия ниже :)