Мы — группа надёжности Поиска. Наша задача — делать поисковые сервисы устойчивыми к сбоям, предсказуемыми по latency и проще в эксплуатации. Поиск — критичный пользовательский сервис: любые деградации сразу видны миллионам пользователей и влияют на продуктовые метрики. Поэтому мы строим и развиваем вспомогательные системы и инфраструктурные компоненты, которые помогают командам Поиска быстрее находить причины проблем, безопаснее выкатывать изменения и увереннее жить в проде.

Мы работаем на стыке разработки и эксплуатации: пишем production-код, внедряем практики надёжности, улучшаем наблюдаемость, автоматизируем реакции на инциденты и создаём сервисы, которые повышают устойчивость всей поисковой платформы. В стеке — C++, Go, Python, Bash, а также инструменты и технологии вокруг инфраструктуры, мониторинга, деплоя, конфигураций и автоматизации.

Сейчас мы ищем инженера уровня Middle-Senior, которому интересно не только писать код, но и отвечать за то, как системы ведут себя в проде: от метрик и алертов до деградаций, откатов и постмортемов.

Задачи

Разрабатывать вспомогательные сервисы надёжности для Поиска: системы диагностики, health-check/guardrail-компоненты, автоматические проверки, инструменты для расследования инцидентов и анализа деградаций
Улучшать наблюдаемость: метрики, логи, трассировки, SLI/SLO, дашборды, алертинг, снижение шума и повышение полезности сигналов
Автоматизировать эксплуатацию: деплой/роллауты, безопасные выкладки, откаты, canary/эксперименты, runbooks, автоматические действия при типовых авариях
Работать с инфраструктурой: конфигурации, сервис-дискавери, балансировка, лимиты/квоты, управление ресурсами, устойчивость к отказам ДЦ
Разбирать инциденты и деградации: участие в on-call/дежурствах, проведение расследований, формирование и реализация action items, улучшение процессов
Взаимодействовать с командами Поиска: помогать внедрять практики надёжности, согласовывать требования, находить узкие места и доводить изменения до продакшена

Требования

Уверенный опыт backend-разработки на уровне Middle-Senior
Хорошее знание C++ и готовность писать и поддерживать production-код
Практический опыт эксплуатации сервисов в проде: понимание, что такое latency, tail latency, отказоустойчивость, деградации, capacity, инциденты, откаты
Навыки DevOps/SRE-подхода: мониторинг, алертинг, диагностика, автоматизация, инфраструктурное мышление
Умение разбираться в большой кодовой базе и сложной распределённой системе, находить причины проблем, предлагать и внедрять улучшения
Коммуникация и ответственность: умение договариваться со смежными командами и доводить инициативы до результата

Будет плюсом

Опыт работы с highload/low-latency системами и распределёнными сервисами
Опыт построения observability (метрики/логи/трейсы), настройки алертинга и дашбордов (Grafana/VictoriaMetrics/Prometheus или аналоги)
Опыт с контейнеризацией и оркестрацией (Docker/Kubernetes или внутренние платформы), CI/CD
Опыт проведения postmortem, внедрения SLO/ошибочного бюджета, практик безопасных релизов (canary, gradual rollout)
Знание Python/Go/Java для автоматизации и инструментов (не обязательно)
Опыт работы с системами хранения/очередями/кешами и понимание их отказовых режимов

С++ разработчик в группу надёжности Поиска

Job description

Задачи

Требования

Будет плюсом

Match