Мы предоставляем клиентам удобный инструмент для работы с кластерами MySQL, снимаем с пользователей головную боль по настройке и обслуживанию хостов. Наша автоматика умеет переживать различные нештатные ситуации, восстанавливать состояние кластера «за секунду до». Наш стек: Go, Python 3.x, SaltStack и облачная инфраструктура. Наши базы данных критически важны. Они обеспечивают работу множества сервисов внешних клиентов и ключевых внутренних сервисов Яндекса: Кинопоиска, Музыки, Директа, рекламных платформ и других высоконагруженных систем, которые требуют надёжной OLTP-основы. Преимущества нашей платформы: * High availability — автоматическое переключение при отказах * Быстрое восстановление из бэкапов — минимальное время простоя * Мониторинг «из коробки» — полный контроль над состоянием кластера * Обновления без простоев — минимальный даунтайм при апгрейдах * Infrastructure as Code — управление инфраструктурой через Terraform * Performance diagnostics — встроенные инструменты диагностики производительности Сейчас мы работаем над следующими крупными задачами: * Продвинутый L7-балансировщик для СУБД * Скоростное Point-in-Time Recovery * Продвинутая диагностика состояния кластера * Удобное управление пользователями напрямую через SQL

Обязанности:

Совершенствование алгоритмов устойчивости кластеров
Вы будете обеспечивать стабильность на огромном количестве хостов силами ограниченной команды, совершенствовать алгоритмы устойчивости кластеров: устранять потери связности между хостами, решать проблемы экстремальной нагрузки на хосты и другие. Поддержка пользователей
Вам предстоит заниматься поддержкой пользователей в нетривиальных сценариях «мы ничего не делали, оно само сломалось». Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

  • Пишете на Go или Python
  • Понимаете внутреннее устройство любой базы данных и готовы вникать в нюансы MySQL
  • Администрировали Unix-системы, умеете диагностировать проблемы, которые возникают в процессе эксплуатации