Проект: Райф. банк. Ищем Senior MLOps-инженера для администрирования и развития инфраструктуры AI/ML-сервисов.
Требования:
- Коммерческий опыт администрирования Linux и управления производственными кластерами Kubernetes.
- Уверенное владение Helm (написание чартов, управление релизами).
- Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
- Знание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault (HashiCorp Vault).
- Глубокие знания в области Observability: Prometheus, Grafana, OpenSearch.
- Навыки автоматизации: написание скриптов на Python и Bash.
- Опыт работы с AI-инструментами разработки и подходами к AI-агентам, tool calling, RAG, function calling, интеграция с LLM API или inference-серверами; понимание особенностей LLM-инференса (latency, throughput, batching, context length, token usage).
- Понимание подготовки данных для AI/ML/LLM: embeddings, RAG, evaluation datasets, telemetry; опыт с ETL/ELT-процессами.
- Опыт работы с большими объёмами данных, экосистемой Hadoop, хранением в HDFS или S3-совместимых системах и форматами Parquet/ORC/Avro/Iceberg; опыт с MPP-движками.
Дополнительно приветствуется:
- Поддержка и администрирование Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
- Разработка внутренних тулзов и утилит на Python.
- Опыт оптимизации и эксплуатации GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач) и эксплуатации LLM-инференса в production.
- Опыт построения RAG-систем, работы с LangChain, LangGraph или аналогичными фреймворками; интеграция в enterprise-среде с повышенными требованиями к безопасности.
- Опыт работы с базами MSSQL, PostgreSQL, ClickHouse; встраивание в ML-инфраструктуру vLLM, LightLLM, Weaviate, Milvus и др.
Задачи:
- Администрирование и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
- Развитие и оптимизация CI/CD пайплайнов (GitLab CI/CD).
- Автоматизация рутинных операций, разработка ботов и агентов для поддержки команды.
- MLOps: автоматизация жизненного цикла моделей — обучение, тестирование, деплой и мониторинг дрейфа данных.
- Настройка комплексного логирования, мониторинга и алертинга (Prometheus, Grafana, OpenSearch).
- Поддержка инфраструктуры, обеспечение отказоустойчивости и безопасности, интеграция агентских систем и внедрение opensource-решений.
Стек: Python, Java, Bash, Kubernetes, Helm, GitLab CI/CD, MSSQL, PostgreSQL, ClickHouse, Hadoop, Trino, Airflow, Redis, Spark, Prometheus, Grafana, OpenSearch, vLLM, LightLLM, Weaviate, Milvus, Keycloak, OAuth2, HashiCorp Vault.