Мы — группа надёжности Поиска. Наша задача — делать поисковые сервисы устойчивыми к сбоям, предсказуемыми по latency и проще в эксплуатации. Поиск — критичный пользовательский сервис: любые деградации сразу видны миллионам пользователей и влияют на продуктовые метрики. Поэтому мы строим и развиваем вспомогательные системы и инфраструктурные компоненты, которые помогают командам Поиска быстрее находить причины проблем, безопаснее выкатывать изменения и увереннее жить в проде.

Мы работаем на стыке разработки и эксплуатации: пишем production-код, внедряем практики надёжности, улучшаем наблюдаемость, автоматизируем реакции на инциденты и создаём сервисы, которые повышают устойчивость всей поисковой платформы. В стеке — C++, Go, Python, Bash, а также инструменты и технологии вокруг инфраструктуры, мониторинга, деплоя, конфигураций и автоматизации.

Сейчас мы ищем инженера уровня Middle-Senior, которому интересно не только писать код, но и отвечать за то, как системы ведут себя в проде: от метрик и алертов до деградаций, откатов и постмортемов.

Задачи

  • Разрабатывать вспомогательные сервисы надёжности для Поиска: системы диагностики, health-check/guardrail-компоненты, автоматические проверки, инструменты для расследования инцидентов и анализа деградаций
  • Улучшать наблюдаемость: метрики, логи, трассировки, SLI/SLO, дашборды, алертинг, снижение шума и повышение полезности сигналов
  • Автоматизировать эксплуатацию: деплой/роллауты, безопасные выкладки, откаты, canary/эксперименты, runbooks, автоматические действия при типовых авариях
  • Работать с инфраструктурой: конфигурации, сервис-дискавери, балансировка, лимиты/квоты, управление ресурсами, устойчивость к отказам ДЦ
  • Разбирать инциденты и деградации: участие в on-call/дежурствах, проведение расследований, формирование и реализация action items, улучшение процессов
  • Взаимодействовать с командами Поиска: помогать внедрять практики надёжности, согласовывать требования, находить узкие места и доводить изменения до продакшена

Требования

  • Уверенный опыт backend-разработки на уровне Middle-Senior
  • Хорошее знание C++ и готовность писать и поддерживать production-код
  • Практический опыт эксплуатации сервисов в проде: понимание, что такое latency, tail latency, отказоустойчивость, деградации, capacity, инциденты, откаты
  • Навыки DevOps/SRE-подхода: мониторинг, алертинг, диагностика, автоматизация, инфраструктурное мышление
  • Умение разбираться в большой кодовой базе и сложной распределённой системе, находить причины проблем, предлагать и внедрять улучшения
  • Коммуникация и ответственность: умение договариваться со смежными командами и доводить инициативы до результата

Будет плюсом

  • Опыт работы с highload/low-latency системами и распределёнными сервисами
  • Опыт построения observability (метрики/логи/трейсы), настройки алертинга и дашбордов (Grafana/VictoriaMetrics/Prometheus или аналоги)
  • Опыт с контейнеризацией и оркестрацией (Docker/Kubernetes или внутренние платформы), CI/CD
  • Опыт проведения postmortem, внедрения SLO/ошибочного бюджета, практик безопасных релизов (canary, gradual rollout)
  • Знание Python/Go/Java для автоматизации и инструментов (не обязательно)
  • Опыт работы с системами хранения/очередями/кешами и понимание их отказовых режимов