Мы находимся в поиске инженеров SRE (Middle и Senior) для развития и поддержки наших ключевых высоконагруженных сервисов — SuperApp и OPay.
Наша глобальная цель — строить надежную, масштабируемую и отказоустойчивую архитектуру, обеспечивая бесперебойную работу сервисов, которыми ежедневно пользуются миллионы клиентов. Если вы любите автоматизировать рутину, глубоко копать причины инцидентов и внедрять инженерные практики — будем рады видеть вас в команде!
Чем предстоит заниматься:
Для уровня Middle:
- Обеспечение стабильности и высокой доступности сервисов (SuperApp / OPay).
- Внедрение и мониторинг метрик SLI/SLO, оперативное реагирование на алерты.
- Деплой и сопровождение сервисов в Production.
- Поддержка и развитие пайплайнов CI/CD.
- Участие в on-call дежурствах и процессе Incident Management.
- Разбор инцидентов (участие в RCA и составлении postmortem).
- Базовый анализ производительности системы, поиск узких мест.
- Автоматизация рутинных операционных задач (снижение toil).
Для уровня Senior (дополнительно к задачам Middle):
- Проектирование архитектуры отказоустойчивых и масштабируемых систем.
- Управление Error Budget, самостоятельное проведение и лидирование процессов RCA/postmortem.
- Прогнозирование нагрузки (Capacity planning) и подготовка инфраструктуры к пикам.
- Оптимизация процессов доставки кода (Lead time, MTTR, Change failure rate).
- Развитие сквозного Observability (метрики, логи, распределенная трассировка).
- Внедрение, адаптация практик SRE в продуктовых командах.
- Участие в принятии ключевых архитектурных решений и менторство инженеров в команде.
Что мы ожидаем от вас:
Обязательный стек для Middle:
- Уверенное администрирование Linux.
- Хорошее понимание принципов SRE (SLO, Error budget, Toil).
- Уверенные знания Kubernetes (опыт работы с Helm, базовый k8s networking).
- Опыт настройки CI/CD (GitLab CI / Jenkins) и работы с IaC (Ansible).
- Опыт выстраивания мониторинга (Prometheus, Grafana, VictoriaMetrics или аналоги) и работы с логами (ELK / OpenSearch).
- Понимание сетевого стека и базовых протоколов (TCP/IP, HTTP/HTTPS, DNS).
- Опыт эксплуатации БД (PostgreSQL, MongoDB, Redis) и базовое понимание Kafka.
- Опыт работы с системами управления секретами (Vault).
- Опыт Troubleshooting в production-среде и понимание практик Chaos Engineering.
Ожидания от Senior (дополнительно):
- Глубокая экспертиза в Linux и Kubernetes (написание Operators, понимание CRD, сложный networking).
- Опыт построения CI/CD пайплайнов на уровне всей платформы.
- Продвинутый уровень владения IaC (Ansible, модульность, написание ролей по best practices).
- Опыт работы с Service Mesh (Istio / Linkerd / Cilium).
- Глубокое понимание сетей и балансировки трафика (L4/L7, NGINX, Citrix).
- Коммерческий опыт работы с Highload-системами и облачными провайдерами (Huawei Cloud, AWS, Azure).
- Уверенная эксплуатация и оптимизация производительности Kafka, PostgreSQL, MongoDB, Redis.
- Опыт внедрения полноценного Observability (metrics + logs + tracing).
- Практический опыт нагрузочного тестирования (k6 или аналоги).
Что мы предлагаем:
- Работу над масштабным финтех-продуктом с современной микросервисной архитектурой.
- Поддержку инженерных инициатив.
- Конкурентную заработную плату (обсуждается индивидуально по итогам технических интервью).
- Прозрачную систему перформанс-ревью и возможности для роста.
- Комфортный формат работы и сильное техническое комьюнити внутри компании.
- Возможность развиваться вместе с нашим бизнесом.
- Свобода действий и ответственность за результат
- Гибкий график (начало рабочего дня, удаленка по необходимости)
- Комфортные условия работы, обучение, годовой бонус