Duties

• Руководство группой эксплуатации: постановка задач, приоритизация, контроль выполнения, развитие инженерной экспертизы команды.

• Организация и контроль эксплуатации кластеров Kubernetes (on-prem и в публичных облаках).

• Ответственность за управление инфраструктурными ресурсами в публичных облаках (Yandex.Cloud/VK.Cloud), включая планирование мощностей и оптимизацию затрат.

• Стратегическое планирование и развитие инфраструктурных и платформенных решений компании.

• Архитектурный и технический контроль изменений:

◦ участие и финальное согласование Code Review инфраструктурных приложений и IaC,

◦ контроль качества и единых стандартов.

• Развитие и стандартизация процессов Infrastructure as Code в команде.

• Организация и контроль внедрения практик GitOps / DevOps в инфраструктуре.

• Обеспечение актуальности и полноты технической документации, формирование эксплуатационных регламентов.

• Ответственность за эксплуатацию сред виртуализации (KVM) и обеспечение их отказоустойчивости и непрерывной работы.

• Организация эксплуатации и развития критически важных инфраструктурных сервисов: Redis, Elasticsearch, RabbitMQ, Kafka.

• Управление инцидентами на инфраструктуре, участие в разборе причин.

Requirements

• Опыт эксплуатации и архитектурного проектирования высоконагруженных систем оркестрации контейнеров (Kubernetes) — on-prem и в публичных облаках.

• Глубокое понимание подхода IaC и опыт его внедрения на уровне команды и организации (Terraform, Ansible).

• Опыт построения и развития систем мониторинга инфраструктуры и сервисов:

◦ определение ключевых метрик,

◦ проектирование дашбордов,

◦ организация алертинга (VictoriaMetrics / Grafana).

• Понимание принципов построения и эксплуатации отказоустойчивых, высокодоступных и масштабируемых систем.

• Опыт организации процессов резервного копирования и восстановления инфраструктурных компонентов.

• Навыки технического лидерства: принятие архитектурных решений, наставничество, управление техническим долгом.

• Умение работать на стыке команд эксплуатации, разработки и архитектуры.

Будет плюсом:

• Опыт управления гибридной инфраструктурой.

• Понимание SRE-подходов и практик повышения надёжности.