Проект: Медицина.
Локация: РФ (часовой пояс Москва, UTC+03:00). Формат: удалённо. Занятость: фуллтайм.
Требования:
- Опыт работы в сфере DevOps не менее 4 лет
- Обязательный опыт работы с ML-инфраструктурой и GPU‑нагрузками
- Практический опыт работы on-prem ML-стеком
Задачи:
- Построение и настройка инфраструктуры для задач машинного обучения, включая развёртывание и обслуживание GPU‑серверов
- Организация процессов обучения и инференса моделей
- Внедрение практик MLOps: настройка CI/CD‑пайплайнов для моделей, организация версионирования и мониторинга
- Поддержка и оптимизация пайплайнов обучения и деплоя ML‑моделей
Стек и инструменты:
- Kubernetes (в т.ч. GPU)
- Docker
- MLflow
- Kubeflow
- Airflow
- DVC
- Triton
- TorchServe
- Terraform
- Prometheus
- Grafana
- Zabbix
- GPU (CUDA)
- Bash
- Python