Мы находимся в поиске инженеров SRE (Middle и Senior) для развития и поддержки наших ключевых высоконагруженных сервисов — SuperApp и OPay.

Наша глобальная цель — строить надежную, масштабируемую и отказоустойчивую архитектуру, обеспечивая бесперебойную работу сервисов, которыми ежедневно пользуются миллионы клиентов. Если вы любите автоматизировать рутину, глубоко копать причины инцидентов и внедрять инженерные практики — будем рады видеть вас в команде!

Чем предстоит заниматься:

Для уровня Middle:

Обеспечение стабильности и высокой доступности сервисов (SuperApp / OPay).
Внедрение и мониторинг метрик SLI/SLO, оперативное реагирование на алерты.
Деплой и сопровождение сервисов в Production.
Поддержка и развитие пайплайнов CI/CD.
Участие в on-call дежурствах и процессе Incident Management.
Разбор инцидентов (участие в RCA и составлении postmortem).
Базовый анализ производительности системы, поиск узких мест.
Автоматизация рутинных операционных задач (снижение toil).

Для уровня Senior (дополнительно к задачам Middle):

Проектирование архитектуры отказоустойчивых и масштабируемых систем.
Управление Error Budget, самостоятельное проведение и лидирование процессов RCA/postmortem.
Прогнозирование нагрузки (Capacity planning) и подготовка инфраструктуры к пикам.
Оптимизация процессов доставки кода (Lead time, MTTR, Change failure rate).
Развитие сквозного Observability (метрики, логи, распределенная трассировка).
Внедрение, адаптация практик SRE в продуктовых командах.
Участие в принятии ключевых архитектурных решений и менторство инженеров в команде.

Что мы ожидаем от вас:

Обязательный стек для Middle:

Уверенное администрирование Linux.
Хорошее понимание принципов SRE (SLO, Error budget, Toil).
Уверенные знания Kubernetes (опыт работы с Helm, базовый k8s networking).
Опыт настройки CI/CD (GitLab CI / Jenkins) и работы с IaC (Ansible).
Опыт выстраивания мониторинга (Prometheus, Grafana, VictoriaMetrics или аналоги) и работы с логами (ELK / OpenSearch).
Понимание сетевого стека и базовых протоколов (TCP/IP, HTTP/HTTPS, DNS).
Опыт эксплуатации БД (PostgreSQL, MongoDB, Redis) и базовое понимание Kafka.
Опыт работы с системами управления секретами (Vault).
Опыт Troubleshooting в production-среде и понимание практик Chaos Engineering.

Ожидания от Senior (дополнительно):

Глубокая экспертиза в Linux и Kubernetes (написание Operators, понимание CRD, сложный networking).
Опыт построения CI/CD пайплайнов на уровне всей платформы.
Продвинутый уровень владения IaC (Ansible, модульность, написание ролей по best practices).
Опыт работы с Service Mesh (Istio / Linkerd / Cilium).
Глубокое понимание сетей и балансировки трафика (L4/L7, NGINX, Citrix).
Коммерческий опыт работы с Highload-системами и облачными провайдерами (Huawei Cloud, AWS, Azure).
Уверенная эксплуатация и оптимизация производительности Kafka, PostgreSQL, MongoDB, Redis.
Опыт внедрения полноценного Observability (metrics + logs + tracing).
Практический опыт нагрузочного тестирования (k6 или аналоги).

Что мы предлагаем:

Работу над масштабным финтех-продуктом с современной микросервисной архитектурой.
Поддержку инженерных инициатив.
Конкурентную заработную плату (обсуждается индивидуально по итогам технических интервью).
Прозрачную систему перформанс-ревью и возможности для роста.
Комфортный формат работы и сильное техническое комьюнити внутри компании.
Возможность развиваться вместе с нашим бизнесом.
Свобода действий и ответственность за результат
Гибкий график (начало рабочего дня, удаленка по необходимости)
Комфортные условия работы, обучение, годовой бонус

Site Reliability Engineer (Middle / Senior)

Описание вакансии