Проект: Райф. банк. Ищем Senior MLOps-инженера для администрирования и развития инфраструктуры AI/ML-сервисов.

Требования:

  • Коммерческий опыт администрирования Linux и управления производственными кластерами Kubernetes.
  • Уверенное владение Helm (написание чартов, управление релизами).
  • Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
  • Знание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault (HashiCorp Vault).
  • Глубокие знания в области Observability: Prometheus, Grafana, OpenSearch.
  • Навыки автоматизации: написание скриптов на Python и Bash.
  • Опыт работы с AI-инструментами разработки и подходами к AI-агентам, tool calling, RAG, function calling, интеграция с LLM API или inference-серверами; понимание особенностей LLM-инференса (latency, throughput, batching, context length, token usage).
  • Понимание подготовки данных для AI/ML/LLM: embeddings, RAG, evaluation datasets, telemetry; опыт с ETL/ELT-процессами.
  • Опыт работы с большими объёмами данных, экосистемой Hadoop, хранением в HDFS или S3-совместимых системах и форматами Parquet/ORC/Avro/Iceberg; опыт с MPP-движками.

Дополнительно приветствуется:

  • Поддержка и администрирование Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
  • Разработка внутренних тулзов и утилит на Python.
  • Опыт оптимизации и эксплуатации GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач) и эксплуатации LLM-инференса в production.
  • Опыт построения RAG-систем, работы с LangChain, LangGraph или аналогичными фреймворками; интеграция в enterprise-среде с повышенными требованиями к безопасности.
  • Опыт работы с базами MSSQL, PostgreSQL, ClickHouse; встраивание в ML-инфраструктуру vLLM, LightLLM, Weaviate, Milvus и др.

Задачи:

  • Администрирование и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
  • Развитие и оптимизация CI/CD пайплайнов (GitLab CI/CD).
  • Автоматизация рутинных операций, разработка ботов и агентов для поддержки команды.
  • MLOps: автоматизация жизненного цикла моделей — обучение, тестирование, деплой и мониторинг дрейфа данных.
  • Настройка комплексного логирования, мониторинга и алертинга (Prometheus, Grafana, OpenSearch).
  • Поддержка инфраструктуры, обеспечение отказоустойчивости и безопасности, интеграция агентских систем и внедрение opensource-решений.

Стек: Python, Java, Bash, Kubernetes, Helm, GitLab CI/CD, MSSQL, PostgreSQL, ClickHouse, Hadoop, Trino, Airflow, Redis, Spark, Prometheus, Grafana, OpenSearch, vLLM, LightLLM, Weaviate, Milvus, Keycloak, OAuth2, HashiCorp Vault.