Ты сможешь получить опыт и раскрыть свой потенциал, работая над уникальными технологичными проектами наших клиентов.

Ты фокусируешься на технических задачах, а мы берем на себя переговоры с заказчиком, решение бюрократических вопросов и своевременно оплачиваем работу на проекте.

Приглашаем MLOps инженера для работы на IT-проектах наших клиентов (в формате аутстафф).

МЫ ПОРУЧИМ:

Развивать и сопровождать инфраструктуру для разработки, обучения, тестирования и промышленной эксплуатации ML-моделей.
Выстраивать и автоматизировать жизненный цикл ML: от подготовки окружений и пайплайнов обучения до deployment, мониторинга и переобучения моделей.
Проектировать и поддерживать production-ready MLOps-платформу для команд Data Science / ML Engineering.
Автоматизировать процессы сборки, тестирования, доставки и развертывания ML-сервисов и моделей.
Обеспечивать воспроизводимость ML-экспериментов, версионирование моделей, артефактов, датасетов и конфигураций.
Настраивать оркестрацию ML-пайплайнов и процессов обучения/переобучения моделей.
Внедрять и сопровождать мониторинг ML-систем:мониторинг качества моделей, деградации, data drift / concept drift.
Участвовать в интеграции ML-решений в существующую ИТ-инфраструктуру: API, очереди сообщений, хранилища данных, Kubernetes-кластеры.
Оптимизировать производительность, масштабируемость и надежность ML-платформы и inference-сервисов.

ДЛЯ ВЫПОЛНЕНИЯ ЗАДАЧ НЕОБХОДИМО:

Высшее образование (математика / физика / информатика / ИТ)
Коммерческий опыт работы в роли MLOps / DevOps / Platform / Infrastructure Engineer от 5 лет, включая опыт поддержки ML-направления.
Уверенные знания Linux на уровне системного инженера: процессы, память, файловые системы, systemd, сеть, инструменты диагностики и отладки.
Практический опыт работы с контейнеризацией: Docker, понимание namespaces, cgroups, container networking.
Уверенный опыт работы с Kubernetes в production: понимание архитектуры и взаимодействия компонентов кластера, понимание сетевого взаимодействия в кластере, опыт с Calico и/или Cilium будет плюсом.
Опыт автоматизации инфраструктуры с использованием Ansible.
Опыт построения и сопровождения CI/CD-пайплайнов в Jenkins и/или GitLab CI.
Практический опыт работы с системами мониторинга, логирования и алертинга: Prometheus, Grafana, ELK/EFK.
Хорошее понимание сетевого стека TCP/IP, DNS, TLS, reverse proxy, маршрутизации и балансировки.
Опыт эксплуатации реляционных и нереляционных БД на инфраструктурном уровне. Желателен опыт работы с несколькими из следующих систем: PostgreSQL, MySQL, MongoDB, ClickHouse, Cassandra.
Опыт работы с системами обмена сообщениями: Kafka, RabbitMQ или аналогами.
Опыт сопровождения и вывода ML-моделей в production.
Понимание полного жизненного цикла ML-решений: обучение, валидация, упаковка, deployment, инференс, мониторинг, переобучение.
Опыт работы с инструментами оркестрации для ML/data pipelines: Airflow, Kubeflow, MLflow, Argo Workflows или аналогами.
Понимание принципов: версионирования моделей и артефактов, воспроизводимости экспериментов, управления зависимостями ML-окружений, rollout/rollback моделей, мониторинга качества моделей после вывода в production.

Будет плюсом

Опыт работы с feature store, model registry, experiment tracking системами.
Практический опыт с Seldon Core, KServe, BentoML или аналогичными инструментами
Опыт построения платформенных решений для нескольких DS/ML-команд.
Знание Python на уровне, достаточном для автоматизации, интеграции пайплайнов и поддержки ML tooling.
Опыт работы с GPU-инфраструктурой и запуском ML workloads в Kubernetes.
Опыт работы с LLM/GenAI-инфраструктурой, inference-сервисами и vector DB.
Наличие профильных сертификатов по Kubernetes, Cloud, Linux,

MLOps инженер

Описание вакансии