Hostkey приглашает SRE для работы с глобальной инфраструктурой — площадки в России, Нидерландах, США, Финляндии, Германии, Исландии и Турции. 15000+ физических серверов, кластеры виртуализации на 50000+ VPS, HPC кластер.
Задачи:
- Обеспечение стабильной и надежной работы production-инфраструктуры
- Поддержка и развитие CI/CD процессов (blue/green, canary деплой, rollback, минимизация даунтайма)
- Мониторинг и наблюдаемость: настройка и эксплуатация Prometheus, Grafana, Zabbix, ELK/EFK, систем трейсинга и алертинга
- Проектирование и эксплуатация отказоустойчивых и масштабируемых систем (load balancing, failover, резервирование)
- Capacity planning — прогнозирование нагрузки, анализ производительности и оптимизация ресурсов
- Управление инцидентами: быстрое реагирование, анализ первопричин (RCA), документирование
- Работа с базами данных и брокерами сообщений (PostgreSQL, MySQL, Redis, RabbitMQ и др.)
- Поддержка стандартов надежности: SLO/SLI/SLA, error budget
- Внедрение и развитие инструментов автоматизации инфраструктуры (Terraform, Ansible)
- Тесное взаимодействие с командами разработки для повышения надежности и наблюдаемости сервисов
Требования:
- Опыт работы DevOps / SRE от 3 лет в production-среде
- Владение инструментами автоматизации и CI/CD: Terraform, Ansible, Bash/Python/Go, blue/green и canary deployment
- Практика построения надёжных систем: мониторинг (Prometheus, Grafana, ELK), incident management, SLO/SLI/SLA, capacity planning
Условия и преимущества:
- Крутые проекты, возможность профессионального и личностного роста
- Работа в команде с экспертами, performance review каждые 6 месяцев
- Обучение за счет компании, влияние на выбор инструментов и решений
- Офис: Москва (м. Электрозаводская 5 минут пешком) или удаленная работа из произвольного места
- Возможность оформления ИП или по ТК РФ
- График: пн–пт, 40 часов в рамках еженедельных спринтов