Проекты, над которыми вы будете работать: Механизм оперативной балансировки
Мы управляем трафиком мобильных приложений в реальном времени, чтобы сервис оставался стабильным даже при сетевых сбоях. Вы будете развивать систему, которая позволяет переживать поломки DNS-резолверов и потерю связности между операторами связи и дата-центрами Яндекса. Это критически важный компонент, от которого зависит стабильность и удержание миллионов пользователей. SRE GPT
Мы создаём интеллектуальную систему, которая мгновенно распознаёт аномалии и потенциальные инциденты. SRE GPT автоматически локализовывает проблему до конкретного сервиса или компонента, анализирует корневые причины по историческим данным и логам, выполняет типовые действия по восстановлению и передаёт сложные случаи нужным специалистам. Вы будете развивать мультиагентную RAG-архитектуру, интегрированную с инфраструктурой Яндекса через MCP-серверы, делать SRE-автоматику умнее и надёжнее. Chaos engineering
Мы создаём управляемые сбои, чтобы проверять устойчивость системы и находить скрытые проблемы. Вам предстоит автоматизировать проведение хаос-учений, добавлять новые типы отказов и развивать инструменты наблюдаемости, чтобы система предсказуемо вела себя под нагрузкой. Виртуальные заказы
Мы моделируем работу Такси при пиковых нагрузках, где виртуальные водители возят виртуальных пассажиров по реальным маршрутам. Вы будете развивать симулятор, анализировать производительность и находить узкие места, которые влияют на стабильность и масштабируемость системы. Инструменты observability
Мы объединяем ключевые метрики, логи и механизмы трассировки в едином интерфейсе, который помогает инженерам быстро понимать текущее состояние системы и координировать действия при инцидентах. Вам предстоит развивать эту экосистему: улучшать сбор данных, визуализацию и сценарии взаимодействия, чтобы расследования проходили быстрее и эффективнее. Anomaly detection
Мы анализируем поведение сервисов, чтобы заранее обнаруживать деградацию производительности и ошибки. Вы будете улучшать алгоритмы анализа, повышать точность сигналов и интеграцию с другими системами автоматизации. Graceful degradation
Мы разрабатываем механизмы, которые позволяют временно снижать нагрузку, отключать некритичные функции и сохранять при этом основную работоспособность. Вам нужно будет проектировать и реализовывать сценарии деградации, чтобы сервис оставался доступным даже при частичных сбоях. Автовосстановление
Мы создаём автоматику, которая реагирует на сбои, снижает нагрузку и откатывает потенциально опасные изменения. Вы будете развивать эту систему, добавлять новые сценарии реакций и повышать предсказуемость поведения сервисов при инцидентах. Больше о нашей работе — в видео Антология технологий Яндекс Такси. Надёжность сервиса, докладе Инструменты надёжности Такси, роликах Как строится надёжность Яндекс Такси на русском и на английском.

Обязанности:

Разработка
В ваши задачи будут входить улучшение работы системы оперативной балансировки, развитие SRE GPT — инструментов интеллектуального анализа и автоматического восстановления инцидентов, создание гибкого эмулятора клиентских действий, автоматизация хаос-сценариев и анализ их влияния, разработка инструментов для анализа деградации latency. Архитектура
Вы будете проектировать и развивать сервисы платформы надёжности, выбирать оптимальные решения и проводить технические эксперименты, оценивать влияние на устойчивость и надёжность ключевых компонентов Такси. Исследования
Вам предстоит изучать систему и искать направления для повышения отказоустойчивости, масштабировать успешные практики на десятки команд и сотни микросервисов.

Ключевые навыки:

  • Пишете или готовы писать на Go или Python
  • Понимаете архитектуру распределённых систем
  • Умеете анализировать сложные технические задачи и предлагать решения

Дополнительные требования:

  • Интересуетесь отказоустойчивостью, observability и AI-инструментами в SRE
  • Хотите повышать надёжность продукта, которым ежедневно пользуются миллионы людей