Мы предоставляем клиентам удобный инструмент для работы с кластерами MySQL, снимаем с пользователей головную боль по настройке и обслуживанию хостов. Наша автоматика умеет переживать различные нештатные ситуации, восстанавливать состояние кластера «за секунду до».
Наш стек: Go, Python 3.x, SaltStack и облачная инфраструктура.
Наши базы данных критически важны. Они обеспечивают работу множества сервисов внешних клиентов и ключевых внутренних сервисов Яндекса: Кинопоиска, Музыки, Директа, рекламных платформ и других высоконагруженных систем, которые требуют надёжной OLTP-основы.
Преимущества нашей платформы:
* High availability — автоматическое переключение при отказах
* Быстрое восстановление из бэкапов — минимальное время простоя
* Мониторинг «из коробки» — полный контроль над состоянием кластера
* Обновления без простоев — минимальный даунтайм при апгрейдах
* Infrastructure as Code — управление инфраструктурой через Terraform
* Performance diagnostics — встроенные инструменты диагностики производительности
Сейчас мы работаем над следующими крупными задачами:
* Продвинутый L7-балансировщик для СУБД
* Скоростное Point-in-Time Recovery
* Продвинутая диагностика состояния кластера
* Удобное управление пользователями напрямую через SQL
Обязанности:
Совершенствование алгоритмов устойчивости кластеров
Вы будете обеспечивать стабильность на огромном количестве хостов силами ограниченной команды, совершенствовать алгоритмы устойчивости кластеров: устранять потери связности между хостами, решать проблемы экстремальной нагрузки на хосты и другие.
Поддержка пользователей
Вам предстоит заниматься поддержкой пользователей в нетривиальных сценариях «мы ничего не делали, оно само сломалось».
Больше о бэкенде в Яндексе — в канале Yandex for Backend
Ключевые навыки:
- Пишете на Go или Python
- Понимаете внутреннее устройство любой базы данных и готовы вникать в нюансы MySQL
- Администрировали Unix-системы, умеете диагностировать проблемы, которые возникают в процессе эксплуатации