Команда Server Infrastructure занимается эксплуатацией быстро растущей инфраструктуры Yandex Cloud в рамках подразделения Cloud Foundation Services. Мы строим надёжную и масштабируемую инфраструктуру, поверх которой запускаются виртуальные машины пользователей и внутренние сервисы. В сервисах реализуем различные сценарии работы с железом: от процессов ввода, вывода, починки до бесшовного обновления ОС на всём кластере. Наши сервисы работают с большим количеством облачных и общих яндексовых систем, собирают данные о хостах, метрики состояния железа и кластера в целом, чтобы планировать обслуживание серверов и распределять ресурсы. Мы предоставляем сервисы и инструменты, которые упрощают и автоматизируют внутренние процессы, делают инфраструктуру прозрачнее и стабильнее, снимают с инженеров рутинную работу. Под нашим управлением уже более 16 тыс. серверов в трёх дата-центрах Яндекса, и их количество непрерывно растёт. Мы разрабатываем и постоянно совершенствуем способы мониторинга наших серверов и подходы к нему так, чтобы заранее и автоматически диагностировать неполадки и выполнять обслуживание, не дожидаясь выхода серверов из строя. В работе мы используем:
* Golang и Python для разработки сервисов и автоматики
* SaltStack и Terraform для описания инфраструктуры
* TeamCity и Spinnaker для процессов CI/CD

Обязанности:

Отказоустойчивость и масштабируемость
Вам предстоит отвечать за здоровье и аптайм облачной инфраструктуры. Обеспечивать её отказоустойчивость, масштабируемость и бесперебойную работу, внедрять современные облачные технологии. Улучшать процессы регулярных учений — отключений ДЦ и внедрения контролируемых отказов инфраструктуры и сервисов.
Вы будете проводить оптимизацию производительности и дебаг возникающих проблем. Поддерживать и развивать облачные системы в новых ДЦ и странах (более 25 000 серверов в России). Участвовать в разборах сбоев, искать root cause и внедрять решения, которые предотвратят повторные проблемы. Проектирование и автоматизация
Предстоит участвовать в проектировании архитектурных решений для Yandex Cloud и автоматизации инфраструктурных сценариев и процессов. Помогать разработчикам проектировать производительные отказоустойчивые сервисы. Улучшать архитектуру систем управления и автоматизации работы кластера. Observability и CI/CD
Нужно будет улучшать наши инструменты диагностики, мониторинга. Разрабатывать новые мониторинги и улучшать имеющиеся. Настраивать графики и алерты, уменьшать количество ложных срабатываний, повышать скорость реакции на критические события. Разрабатывать и совершенствовать процессы деплоя инфраструктурных сервисов и пайплайны CI (Kotlin DSL), переводить существующие механизмы на K8s. Разработка и поддержка сервисов
Вы будете разрабатывать и поддерживать сервисы на Python и Go. Создавать инструменты автоматизации управления инфраструктурой и ускоряющие рутинные задачи. Больше о разработке в Яндексе — в канале Yandex for Developers

Ключевые навыки:

  • Писали код на Python и/или Go
  • Работали с Unix-системами и сетевыми технологиями
  • Имели дело с SRE-подходами или DevOps-практиками
  • Любите улучшать процессы и автоматизировать задачи: писали сервисы и утилиты для автоматизации
  • Умеете не только решать проблемы, но и находить причины их возникновения
  • Знаете, как сделать отказоустойчивый масштабируемый сервис
  • Способны учиться и готовы делиться опытом