Monitoring Engineer 24/7

Мы ищем Monitoring Engineer, который поможет обеспечивать стабильную работу критически важных сервисов компании. В этой роли вы будете отвечать за мониторинг инфраструктуры и приложений, оперативное реагирование на инциденты и повышение эффективности процессов наблюдаемости.

Если вам нравится анализировать работу систем, находить проблемы до того, как они повлияют на пользователей, и работать на стыке инфраструктуры, DevOps и разработки — будем рады познакомиться.

Чем предстоит заниматься:

Мониторинг и управление оповещениями

  • Осуществлять круглосуточный мониторинг систем, приложений и сетевой инфраструктуры с использованием Zabbix, Prometheus, Grafana, AppDynamics и ELK Stack.
  • Выявлять, анализировать и контролировать входящие оповещения через Jira Service Management.
  • Оперативно эскалировать инциденты ответственным командам и контролировать их обработку.
  • Поддерживать и совершенствовать мониторинговые дашборды и правила оповещений.
  • Документировать выполненные действия и результаты расследований.
  • Взаимодействовать с командами Infrastructure, DevOps и Development для обеспечения высокой доступности сервисов.

Управление инцидентами

  • Участвовать в процессе Incident Management.
  • Быстро выявлять и фиксировать проблемы в работе сервисов.
  • Обеспечивать своевременную коммуникацию со всеми заинтересованными сторонами.
  • Подготавливать данные для постинцидентного анализа на основе метрик, логов и мониторинга.
  • Помогать в выявлении причин возникновения инцидентов и предотвращении их повторения.

Улучшение процессов мониторинга

  • Анализировать повторяющиеся и ложноположительные срабатывания.
  • Оптимизировать существующие правила мониторинга и алертинга.
  • Развивать внутреннюю базу знаний и операционную документацию.
  • Участвовать в совершенствовании процессов наблюдаемости и эксплуатации сервисов.

Что мы ожидаем:

  • Опыт работы в мониторинге, технической поддержке, эксплуатации или администрировании IT-систем.
  • Понимание принципов мониторинга инфраструктуры и приложений.
  • Опыт работы с одним или несколькими инструментами: Zabbix, Prometheus, Grafana, ELK Stack, AppDynamics.
  • Навыки анализа логов, метрик и инцидентов.
  • Понимание сетевых технологий, клиент-серверной архитектуры и принципов работы веб-приложений.
  • Умение быстро анализировать ситуацию и принимать решения в условиях ограниченного времени.
  • Хорошие коммуникативные навыки и внимательность к деталям.

Будет плюсом:

  • Опыт работы в финтехе, банках или высоконагруженных системах.
  • Знание процессов Incident Management, Problem Management и ITIL.
  • Опыт работы с Jira Service Management.
  • Базовые знания Linux и SQL.
  • Опыт взаимодействия с DevOps и SRE-командами.

Технологии и инструменты:

  • Zabbix
  • Prometheus
  • Grafana
  • AppDynamics
  • ELK Stack
  • Jira Service Management

Мы предлагаем

Сменный график работы 2/2

Конкурентоспособную заработную плату (обсуждается индивидуально)

Медицинскую страховку после прохождения испытательного срока

Возможности для профессионального развития: обучение, тренинги, сертификации и профильные курсы

24 удалённых рабочих дня в году

Современный офис и комфортные условия работы

Корпоративные мероприятия и тимбилдинги

Возможность влиять на процессы и участвовать в развитии мониторинга и эксплуатации сервисов компании