Мы разрабатываем высоконагруженные сервисы распознавания (ASR) и синтеза речи (TTS), работающие в Алисе, Браузере, Переводчике и других продуктах Яндекса, которыми ежедневно пользуются миллионы людей. Наша команда отвечает за бэкенд-инфраструктуру этих технологий: от проектирования и разработки gRPC-сервисов до оптимизации инференса современных нейросетевых моделей. Сейчас голосовые технологии переживают бурное развитие: по нескольким секундам вашего голоса можно синтезировать любую фразу или даже заставить модель спеть песню в вашем стиле. За этими возможностями — всё более сложные модели, зачастую объединённые в каскады с нетривиальной логикой инференса. Это ставит перед нами новые вызовы: как сохранить высокую производительность, масштабируемость и стабильность, когда требования к задержкам измеряются в миллисекундах, а нагрузка — в тысячах запросов в секунду.

Обязанности:

Внедрение новых моделей синтеза и распознавания речи
Вам предстоит тесно работать с ML-командами, понимать архитектуру новых моделей (TTS, ASR), проектировать эффективные схемы инференса и адаптировать наши сервисы под их особенности — с учётом жёстких требований к latency, throughput и стабильности. Разработка высоконагруженных gRPC-сервисов с нуля
Вы будете писать производительный, тестируемый и отказоустойчивый код на C++ для новых функций и сервисов, которые потом попадут в Алису, Поиск, Переводчик и другие продукты. Оптимизация инференса нейросетей
Вы будете исследовать и внедрять современные движки инференса (vLLM, SGLang, TensorRT-LLM), экспериментировать с батчингом, квантованием и кешированием — всем, что помогает ускорить модели без потери качества. Повышение надёжности сервисов
Вам предстоит участвовать в полном цикле разработки — от проектирования и тестирования до деплоя и поддержки. Важная часть нашей работы — улучшение мониторинга, добавление метрик и логов, а также автоматизация процессов релиза. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

  • Уверенно владеете C++, желательно C++17 и выше
  • Разрабатывали высоконагруженные бэкенд-сервисы: умеете проектировать системы с предсказуемым latency, стабильным throughput, а также находить и устранять утечки памяти и деградацию производительности под нагрузкой
  • Имеете базовые знания в области ML и знакомы с PyTorch — наша команда не обучает модели, но важно понимать, как устроен инференс, и иногда уметь читать ML-код

Дополнительные требования:

  • Знакомы с современными фреймворками для инференса LLM-моделей: SGLang, vLLM, TensorRT-LLM
  • Работали с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton