Cloud Notification Service — это высоконагруженный инфраструктурный сервис, который обеспечивает доставку сообщений в реальном времени для всей экосистемы Яндекса. Каждый день через наш сервис проходят миллиарды уведомлений: о новых письмах, прибытии такси, изменениях контента и других важных для пользователей событиях. Наша команда работает над системой, которая поддерживает десятки миллионов одновременных WebSocket-соединений и обрабатывает экстремальные нагрузки. Мы создаём решения, позволяющие любым сервисам Яндекса быстро и надёжно взаимодействовать с пользователями через мобильные приложения, веб-интерфейсы и десктопные программы. Роль SRE является одной из ключевых в развитии критически важного компонента инфраструктуры, от которого зависит работа десятков продуктов, используемых миллионами людей ежедневно.

Обязанности:

Разработка Cloud Notification Service
Вам предстоит участвовать в создании нового сервиса нотификаций для Yandex Cloud на базе внутренней технологии. Сервис будет совместим с Amazon SNS, что откроет новые возможности для внешних разработчиков. Непрерывная поставка
Вы будете разрабатывать и улучшать CI/CD-процессы, чтобы безопасно и быстро внедрять изменения в продакшен-окружение на Kubernetes-кластерах. Надёжность и производительность сервиса
Вам нужно будет работать над архитектурой высоконагруженного сервиса с доступностью 99,99%. Задача — минимизировать задержки и потери при пиковых нагрузках, когда все соединения переподключаются одновременно.

Ключевые навыки:

  • Работали с PostgreSQL в высоконагруженных сценариях
  • Автоматизировали процессы с помощью Python или Go
  • Уверенно владеете Linux на уровне администрирования
  • Понимаете принципы работы TCP/IP и умеете диагностировать сетевые проблемы
  • Разбираетесь в построении распределённых и отказоустойчивых веб-сервисов
  • Имеете опыт работы с системами мониторинга и управления конфигурациями

Дополнительные требования:

  • Работали с Kubernetes и Helm
  • Понимаете принципы работы очередей и распределённых систем
  • Разбираетесь в обеспечении отказоустойчивости серверных приложений
  • Имеете опыт разработки на Go, Python или C++
  • Знакомы с процессами инцидент-менеджмента
  • Умеете работать с Terraform для управления инфраструктурой