* Golang и Python для разработки сервисов и автоматики
* SaltStack и Terraform для описания инфраструктуры
* TeamCity и Spinnaker для процессов CI/CD
Обязанности:
Отказоустойчивость и масштабируемостьВам предстоит отвечать за здоровье и аптайм облачной инфраструктуры. Обеспечивать её отказоустойчивость, масштабируемость и бесперебойную работу, внедрять современные облачные технологии. Улучшать процессы регулярных учений — отключений ДЦ и внедрения контролируемых отказов инфраструктуры и сервисов.
Вы будете проводить оптимизацию производительности и дебаг возникающих проблем. Поддерживать и развивать облачные системы в новых ДЦ и странах (более 25 000 серверов в России). Участвовать в разборах сбоев, искать root cause и внедрять решения, которые предотвратят повторные проблемы. Проектирование и автоматизация
Предстоит участвовать в проектировании архитектурных решений для Yandex Cloud и автоматизации инфраструктурных сценариев и процессов. Помогать разработчикам проектировать производительные отказоустойчивые сервисы. Улучшать архитектуру систем управления и автоматизации работы кластера. Observability и CI/CD
Нужно будет улучшать наши инструменты диагностики, мониторинга. Разрабатывать новые мониторинги и улучшать имеющиеся. Настраивать графики и алерты, уменьшать количество ложных срабатываний, повышать скорость реакции на критические события. Разрабатывать и совершенствовать процессы деплоя инфраструктурных сервисов и пайплайны CI (Kotlin DSL), переводить существующие механизмы на K8s. Разработка и поддержка сервисов
Вы будете разрабатывать и поддерживать сервисы на Python и Go. Создавать инструменты автоматизации управления инфраструктурой и ускоряющие рутинные задачи. Больше о разработке в Яндексе — в канале Yandex for Developers
Ключевые навыки:
- Писали код на Python и/или Go
- Работали с Unix-системами и сетевыми технологиями
- Имели дело с SRE-подходами или DevOps-практиками
- Любите улучшать процессы и автоматизировать задачи: писали сервисы и утилиты для автоматизации
- Умеете не только решать проблемы, но и находить причины их возникновения
- Знаете, как сделать отказоустойчивый масштабируемый сервис
- Способны учиться и готовы делиться опытом