Проект: Райф. банк. Ищем Senior MLOps-инженера для администрирования и развития инфраструктуры AI/ML-сервисов.

Требования:

Коммерческий опыт администрирования Linux и управления производственными кластерами Kubernetes.
Уверенное владение Helm (написание чартов, управление релизами).
Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
Знание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault (HashiCorp Vault).
Глубокие знания в области Observability: Prometheus, Grafana, OpenSearch.
Навыки автоматизации: написание скриптов на Python и Bash.
Опыт работы с AI-инструментами разработки и подходами к AI-агентам, tool calling, RAG, function calling, интеграция с LLM API или inference-серверами; понимание особенностей LLM-инференса (latency, throughput, batching, context length, token usage).
Понимание подготовки данных для AI/ML/LLM: embeddings, RAG, evaluation datasets, telemetry; опыт с ETL/ELT-процессами.
Опыт работы с большими объёмами данных, экосистемой Hadoop, хранением в HDFS или S3-совместимых системах и форматами Parquet/ORC/Avro/Iceberg; опыт с MPP-движками.

Дополнительно приветствуется:

Поддержка и администрирование Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
Разработка внутренних тулзов и утилит на Python.
Опыт оптимизации и эксплуатации GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач) и эксплуатации LLM-инференса в production.
Опыт построения RAG-систем, работы с LangChain, LangGraph или аналогичными фреймворками; интеграция в enterprise-среде с повышенными требованиями к безопасности.
Опыт работы с базами MSSQL, PostgreSQL, ClickHouse; встраивание в ML-инфраструктуру vLLM, LightLLM, Weaviate, Milvus и др.

Задачи:

Администрирование и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
Развитие и оптимизация CI/CD пайплайнов (GitLab CI/CD).
Автоматизация рутинных операций, разработка ботов и агентов для поддержки команды.
MLOps: автоматизация жизненного цикла моделей — обучение, тестирование, деплой и мониторинг дрейфа данных.
Настройка комплексного логирования, мониторинга и алертинга (Prometheus, Grafana, OpenSearch).
Поддержка инфраструктуры, обеспечение отказоустойчивости и безопасности, интеграция агентских систем и внедрение opensource-решений.

Стек: Python, Java, Bash, Kubernetes, Helm, GitLab CI/CD, MSSQL, PostgreSQL, ClickHouse, Hadoop, Trino, Airflow, Redis, Spark, Prometheus, Grafana, OpenSearch, vLLM, LightLLM, Weaviate, Milvus, Keycloak, OAuth2, HashiCorp Vault.

Senior MLOps

Job description

Match

Estimated salary