Чем предстоит заниматься
- Проектировать и развивать отказоустойчивую инфраструктуру в Kubernetes (GKE) под высокий RPS
- Масштабировать систему (автоскейлинг, балансировка, оптимизация ресурсов)
- Управлять микросервисной архитектурой и сетевыми взаимодействиями
- Настраивать и оптимизировать CDN (Cloudflare / CloudFront) для глобальной доставки PWA
- Строить полноценную observability систему (Prometheus, Grafana, логирование, трейсинг, алерты через SLO/SLI)
- Обеспечивать безопасность инфраструктуры (IAM, secrets management, DDoS protection, аудит)
- Работать с распределёнными БД (CockroachDB / PostgreSQL): репликация, шардирование, бэкапы, миграции
- Развивать и поддерживать CI/CD пайплайны (GitHub Actions / GitLab CI, канареечные деплои, rollback)
- Автоматизировать инфраструктуру через Terraform / Ansible
- Использовать Temporal для оркестрации распределённых воркфлоу
- Участвовать в архитектурных решениях и технической стратегии
- Наставлять младших инженеров и делиться экспертизой
- Linux (Ubuntu), Bash
- Docker, Kubernetes (production уровень, GKE)
- Nginx, CDN (Cloudflare / AWS CloudFront)
- CockroachDB / PostgreSQL
- Prometheus, Grafana, Loki / Tempo
- Terraform, Ansible
- GitHub Actions / GitLab CI
- Temporal (обязательно)
- Google Cloud Platform (GKE, VPC, IAM, Cloud Storage)
- (опционально) AWS / Azure
- 5+ лет коммерческого опыта, из них 3+ года в роли DevOps / SRE
- Опыт работы с high-load системами (тысячи RPS, миллионы пользователей)
- Глубокая экспертиза в Docker и Kubernetes (production-кластеры, Helm, сетевые политики, security)
- Продвинутое понимание сетей (TCP/IP, DNS, HTTP/2, gRPC, балансировка)
- Практический опыт работы с GCP (GKE, IAM, VPC)
- Опыт построения CI/CD и инфраструктуры как кода
- Опыт работы с Temporal или аналогичными системами оркестрации
- Опыт администрирования БД (репликация, шардирование, отказоустойчивость)
- Опыт построения мониторинга и observability систем
- Опыт с CockroachDB в распределённых кластерах
- Опыт внедрения Service Mesh (Istio / Linkerd)
- Понимание GitOps (ArgoCD / Flux)
- Опыт разработки на Go / Python
- Сертификации (CKA / CKAD / GCP DevOps)
- Системное мышление и способность проектировать архитектуру под рост нагрузки
- Умение работать с компромиссами (stateful vs stateless, consistency vs availability)
- Проактивность и ownership за инфраструктуру
- Опыт решения критических инцидентов (DDoS, падения, деградации)
- Умение чётко и понятно объяснять технические решения
- Работал с глобальными GEO (EU / LATAM / US / Asia)
- Масштабировал системы с сотен до тысяч RPS
- Снижал время восстановления (MTTR) и повышал стабильность системы
- Имеешь реальные кейсы оптимизации инфраструктуры с цифрами
- Конкурентная заработная плата (обсуждается индивидуально)
- Испытательный срок: 3 месяца
- Возможность влиять на архитектуру и технические решения
- Работа с high-load продуктом и сложной инфраструктурой