Международная продуктовая компания ищет Senior DevOps/SRE инженера по направлению Observability для участия в разработке и поддержке высоконагруженных развлекательных онлайн-сервисов.
Обязанности:
- Участие в проектировании, внедрении и поддержке решений для обеспечения высокой доступности (HA) и отказоустойчивости систем.
- Сопровождение стратегии Observability и решений ее обеспечивающих (VM stack, CloudWatch, ELK и т.д.).
- Настройка и поддержка мониторинга, дашбордов и алертинга с учётом особенностей систем.
- Формирование и поддержка регламентов инцидент-менеджмента, реагирование на инциденты в PagerDuty и участие в OnCall дежурствах.
- Разработка мер по предотвращению повторных инцидентов, проведение Post-Mortem и RCA.
- Взаимодействие с командами разработки для внедрения принципов надёжного дизайна систем и обучение команд инструментам Observability.
Требования:
- Опыт работы SRE/DevOps от 3 лет.
- Опыт с инструментами Observability: OpenTelemetry, Loki, Grafana, Tempo, Mimir, Victoria Metrics, Elastic Stack (ELK), Vector, Sentry.
- Опыт работы с Kubernetes и Docker.
- Опыт описания инфраструктуры как кода в Terraform и Ansible.
- Опыт сопровождения backend-команд, использующих .NET.
- Знание CI/CD: GitLab CI/CD, ArgoCD.
- Опыт решения критических инцидентов, проведения Post-Mortem и RCA.
- Проактивность, умение взаимодействовать с разными командами и доносить решения.