Инфраструктура
- Проектирование и поддержка Kubernetes-кластеров (Yandex Cloud + bare metal)
- Управление Docker-образами, container registry, версионирование
- Настройка балансировщиков нагрузки (Nginx, HAProxy, Yandex ALB)
- IaC - вся инфраструктура через Terraform / Ansible, как правило ничего руками
- Управление сетями, VPN, firewall, DNS, ingress-контроллеры
- Автоскейлинг: HPA, VPA, Cluster Autoscaler под переменную ML-нагрузку
- Планирование и оптимизация ресурсов: железо vs облако, FinOps
CI/CD
- Построение пайплайнов сборки и деплоя (GitLab CI / GitHub Actions)
- Организация окружений: dev, staging, prod с изоляцией и политиками
- Управление секретами: HashiCorp Vault или Yandex Lockbox
- Автоматизация рутины - операторы, скрипты, хелперы
Безопасность
- Сканирование Docker-образов на уязвимости (Trivy, Clair)
- Настройка NetworkPolicy, RBAC, Pod Security Standards в Kubernetes
- Secrets management - ротация, аудит доступа
- Audit logging - кто, что, когда делал в кластере
- Соответствие требованиям 152-ФЗ если применимо к продуктам
Observability
- Мониторинг: Prometheus + Grafana, настройка дашбордов и алертов
- Логирование: Loki / ELK, structured logging для всех сервисов
- Distributed tracing: Jaeger или OpenTelemetry
- Определение и отслеживание SLA / SLO / SLI для критичных сервисов
- Runbook'и для всех типовых инцидентов
Disaster Recovery
- Бэкапы etcd и всех stateful-компонентов
- Стратегия восстановления кластера, прописанные RTO и RPO
- Нагрузочное тестирование инфраструктуры, chaos engineering
- Post-mortem культура — разбор инцидентов без поиска виноватых
MLOps
- Деплой и обслуживание ML-моделей в Kubernetes (Triton, BentoML, FastAPI)
- Настройка ML-платформы: MLflow, DVC - версионирование моделей и датасетов
- Оркестрация ML-пайплайнов: Airflow, Prefect или Argo Workflows
- Мониторинг качества моделей в проде: data drift, latency, throughput
- GPU-ресурсы: планирование, квоты, профилирование утилизации
- Воспроизводимость экспериментов совместно с ML Engineer
- Процесс деплоя моделей - от артефакта до продакшн-эндпоинта.
Документация и процессы
- Документирование всей инфраструктуры - архитектурные схемы, ADR
- Runbook'и для команды: как деплоить, как откатить, что делать при инциденте
- Onboarding новых разработчиков в инфраструктуру
- Участие в техническом планировании и оценке задач
Обязательно
- Kubernetes - продакшн опыт: деплой, отладка, масштабирование, RBAC, сетевые политики
- Docker - оптимизация образов, multi-stage builds, registry
- CI/CD - GitLab CI или GitHub Actions, реальные пайплайны в проде
- Linux - администрирование: сеть, диски, процессы, systemd, производительность
- Terraform или Ansible - IaC в продакшне
- Мониторинг: Prometheus + Grafana, настройка алертов, SLO
- Безопасность: понимание RBAC, secrets management, сканирование образов
- Сети: TCP/IP, балансировка, ingress, базовый service mesh
- Облака: Yandex Cloud или AWS / GCP (опыт в крупном облаке засчитывается)
MLOps специфика
- Понимание жизненного цикла ML-модели - обучение, валидация, деплой, мониторинг
- Опыт деплоя моделей в прод в любом виде
- GPU-серверы: драйверы, CUDA, планирование нагрузки
- MLflow, Airflow или любые аналоги - реальный опыт
Дополнительно
- Опыт с Yandex Cloud DataSphere или Managed Kubernetes
- Python - скрипты, операторы, автоматизация
- Argo Workflows или Kubeflow
- Опыт с chaos engineering (Chaos Mesh, Litmus)
- FinOps практики - теги, бюджеты, отчёты по утилизации.
В Dogma Вас ждут:
- Работа в крупном строительном холдинге федерального уровня;
- Официальное оформление по ТК РФ с первого рабочего дня (стабильная белая заработная плата с выплатами 2 раза в месяц, оплата больничных листов, ежегодные отпуска);
- Формат и место работы - гибрид, ул.Садовая-Кудринская, 1;
- График работы 5/2 с 09.00 до 18.00;
- Корпоративная программа лояльности для сотрудников Best Benefits – скидки от партнёров;
- Скидки для сотрудников на приобретение недвижимости компании от 4% до 7%;
- Всё для эффективной и качественной работы: профессиональная техника, мобильный телефон и корпоративная сотовая связь;
- Возможность обучения и развития в рамках корпоративного университета компании (тренинги, мастер-классы, онлайн-обучение);
- Корпоративные подарки детям сотрудников к Новому году и объединяющие корпоративные мероприятия;
- Корпоративные тренировки по волейболу и футболу;
- Безграничные возможности кросс-функционального взаимодействия и участия в крупных проектах для расширения профессиональной экспертизы;
- Отличная команда профессионалов с комфортной и дружелюбной рабочей атмосферой.