Hostkey приглашает SRE для работы с глобальной инфраструктурой — площадки в России, Нидерландах, США, Финляндии, Германии, Исландии и Турции. 15000+ физических серверов, кластеры виртуализации на 50000+ VPS, HPC кластер.

Задачи:

  • Обеспечение стабильной и надежной работы production-инфраструктуры
  • Поддержка и развитие CI/CD процессов (blue/green, canary деплой, rollback, минимизация даунтайма)
  • Мониторинг и наблюдаемость: настройка и эксплуатация Prometheus, Grafana, Zabbix, ELK/EFK, систем трейсинга и алертинга
  • Проектирование и эксплуатация отказоустойчивых и масштабируемых систем (load balancing, failover, резервирование)
  • Capacity planning — прогнозирование нагрузки, анализ производительности и оптимизация ресурсов
  • Управление инцидентами: быстрое реагирование, анализ первопричин (RCA), документирование
  • Работа с базами данных и брокерами сообщений (PostgreSQL, MySQL, Redis, RabbitMQ и др.)
  • Поддержка стандартов надежности: SLO/SLI/SLA, error budget
  • Внедрение и развитие инструментов автоматизации инфраструктуры (Terraform, Ansible)
  • Тесное взаимодействие с командами разработки для повышения надежности и наблюдаемости сервисов

Требования:

  • Опыт работы DevOps / SRE от 3 лет в production-среде
  • Владение инструментами автоматизации и CI/CD: Terraform, Ansible, Bash/Python/Go, blue/green и canary deployment
  • Практика построения надёжных систем: мониторинг (Prometheus, Grafana, ELK), incident management, SLO/SLI/SLA, capacity planning

Условия и преимущества:

  • Крутые проекты, возможность профессионального и личностного роста
  • Работа в команде с экспертами, performance review каждые 6 месяцев
  • Обучение за счет компании, влияние на выбор инструментов и решений
  • Офис: Москва (м. Электрозаводская 5 минут пешком) или удаленная работа из произвольного места
  • Возможность оформления ИП или по ТК РФ
  • График: пн–пт, 40 часов в рамках еженедельных спринтов