Международная продуктовая компания ищет Senior DevOps/SRE инженера по направлению Observability для участия в разработке и поддержке высоконагруженных развлекательных онлайн-сервисов.

Обязанности:

  • Участие в проектировании, внедрении и поддержке решений для обеспечения высокой доступности (HA) и отказоустойчивости систем.
  • Сопровождение стратегии Observability и решений ее обеспечивающих (VM stack, CloudWatch, ELK и т.д.).
  • Настройка и поддержка мониторинга, дашбордов и алертинга с учётом особенностей систем.
  • Формирование и поддержка регламентов инцидент-менеджмента, реагирование на инциденты в PagerDuty и участие в OnCall дежурствах.
  • Разработка мер по предотвращению повторных инцидентов, проведение Post-Mortem и RCA.
  • Взаимодействие с командами разработки для внедрения принципов надёжного дизайна систем и обучение команд инструментам Observability.

Требования:

  • Опыт работы SRE/DevOps от 3 лет.
  • Опыт с инструментами Observability: OpenTelemetry, Loki, Grafana, Tempo, Mimir, Victoria Metrics, Elastic Stack (ELK), Vector, Sentry.
  • Опыт работы с Kubernetes и Docker.
  • Опыт описания инфраструктуры как кода в Terraform и Ansible.
  • Опыт сопровождения backend-команд, использующих .NET.
  • Знание CI/CD: GitLab CI/CD, ArgoCD.
  • Опыт решения критических инцидентов, проведения Post-Mortem и RCA.
  • Проактивность, умение взаимодействовать с разными командами и доносить решения.