Monitoring Engineer 24/7
Мы ищем Monitoring Engineer, который поможет обеспечивать стабильную работу критически важных сервисов компании. В этой роли вы будете отвечать за мониторинг инфраструктуры и приложений, оперативное реагирование на инциденты и повышение эффективности процессов наблюдаемости.
Если вам нравится анализировать работу систем, находить проблемы до того, как они повлияют на пользователей, и работать на стыке инфраструктуры, DevOps и разработки — будем рады познакомиться.
Чем предстоит заниматься:
Мониторинг и управление оповещениями
- Осуществлять круглосуточный мониторинг систем, приложений и сетевой инфраструктуры с использованием Zabbix, Prometheus, Grafana, AppDynamics и ELK Stack.
- Выявлять, анализировать и контролировать входящие оповещения через Jira Service Management.
- Оперативно эскалировать инциденты ответственным командам и контролировать их обработку.
- Поддерживать и совершенствовать мониторинговые дашборды и правила оповещений.
- Документировать выполненные действия и результаты расследований.
- Взаимодействовать с командами Infrastructure, DevOps и Development для обеспечения высокой доступности сервисов.
Управление инцидентами
- Участвовать в процессе Incident Management.
- Быстро выявлять и фиксировать проблемы в работе сервисов.
- Обеспечивать своевременную коммуникацию со всеми заинтересованными сторонами.
- Подготавливать данные для постинцидентного анализа на основе метрик, логов и мониторинга.
- Помогать в выявлении причин возникновения инцидентов и предотвращении их повторения.
Улучшение процессов мониторинга
- Анализировать повторяющиеся и ложноположительные срабатывания.
- Оптимизировать существующие правила мониторинга и алертинга.
- Развивать внутреннюю базу знаний и операционную документацию.
- Участвовать в совершенствовании процессов наблюдаемости и эксплуатации сервисов.
Что мы ожидаем:
- Опыт работы в мониторинге, технической поддержке, эксплуатации или администрировании IT-систем.
- Понимание принципов мониторинга инфраструктуры и приложений.
- Опыт работы с одним или несколькими инструментами: Zabbix, Prometheus, Grafana, ELK Stack, AppDynamics.
- Навыки анализа логов, метрик и инцидентов.
- Понимание сетевых технологий, клиент-серверной архитектуры и принципов работы веб-приложений.
- Умение быстро анализировать ситуацию и принимать решения в условиях ограниченного времени.
- Хорошие коммуникативные навыки и внимательность к деталям.
Будет плюсом:
- Опыт работы в финтехе, банках или высоконагруженных системах.
- Знание процессов Incident Management, Problem Management и ITIL.
- Опыт работы с Jira Service Management.
- Базовые знания Linux и SQL.
- Опыт взаимодействия с DevOps и SRE-командами.
Технологии и инструменты:
- Zabbix
- Prometheus
- Grafana
- AppDynamics
- ELK Stack
- Jira Service Management
Мы предлагаем
Сменный график работы 2/2
Конкурентоспособную заработную плату (обсуждается индивидуально)
Медицинскую страховку после прохождения испытательного срока
Возможности для профессионального развития: обучение, тренинги, сертификации и профильные курсы
24 удалённых рабочих дня в году
Современный офис и комфортные условия работы
Корпоративные мероприятия и тимбилдинги
Возможность влиять на процессы и участвовать в развитии мониторинга и эксплуатации сервисов компании