2 hours ago

Senior DevOps / MLOps Engineer

Contract

Senior

РФ

PostgreSQLKubernetesPythonJavaCI/CDRedisАвтоматизацияBig DataMachine LearningobservabilityGitLab CI/CDGrafanaPrometheusLinuxClickhouse

To 400,000 ₽

Job description

Ищется DevOps - MLOps в Райф (грейд: senior, трудоустройство только ИП).

Локация: РФ

Зарплатная вилка: до 400

Требования:

Языки: Python, Java, Bash.
Оркестрация и CI/CD: Kubernetes (k8s), GitLab CI/CD, Helm.
Базы данных и Big Data: PostgreSQL, ClickHouse, Hadoop, Trino, Airflow, Redis.
Observability: Grafana, Prometheus, OpenSearch.
ML & AI Infrastructure: vLLM, LightLLM, GPU-ноды.
Безопасность: Keycloak, OAuth2, HashiCorp Vault.
Опыт коммерческой администрирования Linux и управления производственными кластерами Kubernetes.
Уверенное владение Helm (написание чартов, управление релизами).
Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
Понимание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault.
Глубокие знания в области Observability: стек Prometheus/Grafana, OpenSearch.
Навыки написания скриптов для автоматизации (Python, Bash).
Опыт от 5 лет.

Чем предстоит заниматься:

Администрирование ML-инфраструктуры: поддержка и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
Развитие CI/CD: проектирование и улучшение пайплайнов в GitLab CI/CD, ускорение сборок.
Автоматизация рутины: замена ручных операций на автоматизированные сценарии, разработка ботов и агентов для поддержки команды.
MLOps: автоматизация жизненного цикла ML-моделей: от обучения и тестирования до деплоя и мониторинга дрейфа данных.
Observability: настройка комплексного логирования, мониторинга и алертинга (Prometheus, Grafana, OpenSearch) для всех компонентов системы.
Поддержка инфраструктуры: администрирование серверов команды, обеспечение отказоустойчивости и безопасности.
Интеграция агентских систем: участие в разработке, интеграции и деплое автономных агентных систем и LLM-приложений.

Будет плюсом:

Опыт поддержки и администрирования Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
Опыт разработки внутреннего тулинга и утилит на Python.
Опыт оптимизации работы GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач).
Знание принципов работы LLM и фреймворков для их обслуживания.

Good match

We match every vacancy against your profile and show a fit score — so you instantly know which ones are worth applying to. Sign up and create a resume — it's free.