Мы ищем senior-инженера с сильными лидерскими амбициями, который возьмёт на себя техническое руководство направлениями SRE и технической поддержки. Это не просто роль исполнителя — вы будете формировать процессы, принимать архитектурные решения и выращивать команду. Ожидаем, что через 3–6 месяцев вы станете полноправным лидом отдела.

Управление Kubernetes (on-prem и в облаке): Обеспечивать стабильную работу кластеров, заниматься их апгрейдом, масштабированием и восстановлением после сбоев.
CI/CD и автоматизация: Поддерживать и улучшать пайплайны в Jenkins/GitLab CI.
Инфраструктура как код (IaC): Учавтсвовать в проектировании и внедрении изменений инфраструктуры через Terraform, Ansible, Helm. Мы ценим безопасный подход: поэтапные развертывания, возможность быстрого отката и контроль рисков.
Настраивать системы мониторинга и логирования (Prometheus, Grafana, Loki/ELK), чтобы видеть полную картину происходящего. Ваша задача — создавать полезные дашборды и алерты без лишнего шума, а также улучшать плейбуки для быстрой реакции линий поддержки.
Работа с инцидентами: Диагностировать и устранять проблемы в продакшне, проводить анализ пост-мортем (RCA), предлагать изменения для повышения стабильности.
Интеграции: Работать с гибридной/облачной инфраструктурой (у нас Cloud), управляя ресурсами через IaC.

Мы ищем сотрудника, у которого есть:

Техническое лидерство и процессы

  • Выстраивать инженерную культуру в команде: SRE-практики, внедрение runbook'ов и on-call-процессов, менторство junior/middle-инженеров. Определять приоритеты технического долга и roadmap исправления проблем платформы

Kubernetes и платформа

  • Принимать архитектурные решения по кластерам (on-prem + Cloud.ru): стратегии апгрейда, disaster recovery, сетевые политики (Calico/Cilium). Не просто поддерживать — проектировать

Надёжность и инциденты

  • Возглавлять работу с major-инцидентами: координация, RCA, коммуникация с бизнесом. Переводить пост-мортемы в системные улучшения, снижая MTTR и MTTD на уровне процесса

Мониторинг и observability

  • Строить культуру observability: SLO/SLA/error budget. Устанавливать стандарты алертов и дашбордов для всех команд

Техподдержка

  • Выстраивать процессы эскалации между L1/L2-поддержкой и SRE-командой, формализовывать плейбуки, снижать нагрузку на инженеров за счёт автоматизации и документации

Будет плюсом:

  • Понимание процессов ITSM/ITIL (инциденты, изменения, проблемы) и опыт Глубокие практические навыки Linux: администрирование, bash, systemd, сетевые утилиты — на уровне, когда можно объяснить другим
  • Опыт самостоятельного принятия решений в продакшне: быстрая диагностика, решение об откате, коммуникация с командой
  • Git на уровне эксперта: Git Flow, опыт code review инфраструктурного кода
  • Опыт наставничества или технического руководства — хотя бы неформально: онбординг, ревью, передача знаний

Что усилит вашу кандидатуру

  • Администрирование Kubernetes на уровне кластера: kubeadm/Kubespray, etcd, apiserver, kubelet, CNI, ingress (Nginx/HAProxy), сетевые политики
  • IaC-экспертиза: Terraform, Ansible, Helm — с опытом проектирования, а не только применения
  • Стек мониторинга: Prometheus, Grafana, Loki/ELK — включая построение SLO и error budget
  • Понимание ITSM/ITIL: процессы инцидентов, изменений, проблем; опыт выстраивания работы с поддержкой
  • Облачные провайдеры: Cloud.ru, AWS, GCP или Azure — управление ресурсами через IaC
  • Скрипты и инструменты на Python/Go для автоматизации рутины
  • Работа с хранилищами артефактов и секретов: GitLab Registry/Nexus, Vault/Sealed Secrets
  • Сетевые основы: TCP/IP, DNS, HTTP/HTTPS, балансировка, VPN

Что мы предлагаем?

  • Конкурентную зарплату с годовой премией (обсудим ваши ожидания на собеседовании)
  • Официальное оформление в российскую ИТ-компанию с аккредитацией
  • Привлекательные бонусы: ДМС, бесплатная подписка «СберПрайм+», скидки на изучение английского языка, бесплатный фитнес в офисе или скидки на покупку абонемента себе и близким, скидки от партнёров Сбера, корпоративная пенсионная программа
  • Льготная ипотека в Сбере
  • Удобный формат работы: удалённо или в гибридном фомрате, «короткая» пятница