Мы находимся в поиске инженеров SRE (Middle и Senior) для развития и поддержки наших ключевых высоконагруженных сервисов — SuperApp и OPay.

Наша глобальная цель — строить надежную, масштабируемую и отказоустойчивую архитектуру, обеспечивая бесперебойную работу сервисов, которыми ежедневно пользуются миллионы клиентов. Если вы любите автоматизировать рутину, глубоко копать причины инцидентов и внедрять инженерные практики — будем рады видеть вас в команде!

Чем предстоит заниматься:

Для уровня Middle:

  • Обеспечение стабильности и высокой доступности сервисов (SuperApp / OPay).
  • Внедрение и мониторинг метрик SLI/SLO, оперативное реагирование на алерты.
  • Деплой и сопровождение сервисов в Production.
  • Поддержка и развитие пайплайнов CI/CD.
  • Участие в on-call дежурствах и процессе Incident Management.
  • Разбор инцидентов (участие в RCA и составлении postmortem).
  • Базовый анализ производительности системы, поиск узких мест.
  • Автоматизация рутинных операционных задач (снижение toil).

Для уровня Senior (дополнительно к задачам Middle):

  • Проектирование архитектуры отказоустойчивых и масштабируемых систем.
  • Управление Error Budget, самостоятельное проведение и лидирование процессов RCA/postmortem.
  • Прогнозирование нагрузки (Capacity planning) и подготовка инфраструктуры к пикам.
  • Оптимизация процессов доставки кода (Lead time, MTTR, Change failure rate).
  • Развитие сквозного Observability (метрики, логи, распределенная трассировка).
  • Внедрение, адаптация практик SRE в продуктовых командах.
  • Участие в принятии ключевых архитектурных решений и менторство инженеров в команде.

Что мы ожидаем от вас:

Обязательный стек для Middle:

  • Уверенное администрирование Linux.
  • Хорошее понимание принципов SRE (SLO, Error budget, Toil).
  • Уверенные знания Kubernetes (опыт работы с Helm, базовый k8s networking).
  • Опыт настройки CI/CD (GitLab CI / Jenkins) и работы с IaC (Ansible).
  • Опыт выстраивания мониторинга (Prometheus, Grafana, VictoriaMetrics или аналоги) и работы с логами (ELK / OpenSearch).
  • Понимание сетевого стека и базовых протоколов (TCP/IP, HTTP/HTTPS, DNS).
  • Опыт эксплуатации БД (PostgreSQL, MongoDB, Redis) и базовое понимание Kafka.
  • Опыт работы с системами управления секретами (Vault).
  • Опыт Troubleshooting в production-среде и понимание практик Chaos Engineering.

Ожидания от Senior (дополнительно):

  • Глубокая экспертиза в Linux и Kubernetes (написание Operators, понимание CRD, сложный networking).
  • Опыт построения CI/CD пайплайнов на уровне всей платформы.
  • Продвинутый уровень владения IaC (Ansible, модульность, написание ролей по best practices).
  • Опыт работы с Service Mesh (Istio / Linkerd / Cilium).
  • Глубокое понимание сетей и балансировки трафика (L4/L7, NGINX, Citrix).
  • Коммерческий опыт работы с Highload-системами и облачными провайдерами (Huawei Cloud, AWS, Azure).
  • Уверенная эксплуатация и оптимизация производительности Kafka, PostgreSQL, MongoDB, Redis.
  • Опыт внедрения полноценного Observability (metrics + logs + tracing).
  • Практический опыт нагрузочного тестирования (k6 или аналоги).

Что мы предлагаем:

  • Работу над масштабным финтех-продуктом с современной микросервисной архитектурой.
  • Поддержку инженерных инициатив.
  • Конкурентную заработную плату (обсуждается индивидуально по итогам технических интервью).
  • Прозрачную систему перформанс-ревью и возможности для роста.
  • Комфортный формат работы и сильное техническое комьюнити внутри компании.
  • Возможность развиваться вместе с нашим бизнесом.
  • Свобода действий и ответственность за результат
  • Гибкий график (начало рабочего дня, удаленка по необходимости)
  • Комфортные условия работы, обучение, годовой бонус