Обязанности:
Внедрение новых моделей синтеза и распознавания речиВам предстоит тесно работать с ML-командами, понимать архитектуру новых моделей (TTS, ASR), проектировать эффективные схемы инференса и адаптировать наши сервисы под их особенности — с учётом жёстких требований к latency, throughput и стабильности. Разработка высоконагруженных gRPC-сервисов с нуля
Вы будете писать производительный, тестируемый и отказоустойчивый код на C++ для новых функций и сервисов, которые потом попадут в Алису, Поиск, Переводчик и другие продукты. Оптимизация инференса нейросетей
Вы будете исследовать и внедрять современные движки инференса (vLLM, SGLang, TensorRT-LLM), экспериментировать с батчингом, квантованием и кешированием — всем, что помогает ускорить модели без потери качества. Повышение надёжности сервисов
Вам предстоит участвовать в полном цикле разработки — от проектирования и тестирования до деплоя и поддержки. Важная часть нашей работы — улучшение мониторинга, добавление метрик и логов, а также автоматизация процессов релиза. Больше о бэкенде в Яндексе — в канале Yandex for Backend
Ключевые навыки:
- Уверенно владеете C++, желательно C++17 и выше
- Разрабатывали высоконагруженные бэкенд-сервисы: умеете проектировать системы с предсказуемым latency, стабильным throughput, а также находить и устранять утечки памяти и деградацию производительности под нагрузкой
- Имеете базовые знания в области ML и знакомы с PyTorch — наша команда не обучает модели, но важно понимать, как устроен инференс, и иногда уметь читать ML-код
Дополнительные требования:
- Знакомы с современными фреймворками для инференса LLM-моделей: SGLang, vLLM, TensorRT-LLM
- Работали с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton