Ищем Middle / Senior ML Engineer / Researcher в исследовательскую команду для разработки
омнимодального Full-Duplex — архитектуры, которая слышит, говорит, нативно понимает
перебивания и одновременно работает с аудио, текстом и визуальной информацией в реальном
времени.
Обязанности
- разработка full-duplex мультимодальных архитектур: одновременное восприятие и генерация речи
- обработка перебиваний, пауз и естественного диалога в реальном времени
- интеграция речи, текста и визуальных модальностей в единую архитектуру
- мультимодальный reasoning и синхронизация потоков (audio–text–vision)
- обучение и оптимизация моделей для низкой латентности и стриминга
- исследование и имплементация state-of-the-art подходов (end-to-end, streaming transformers, multimodal LLMs)
Требования
- отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc, HF Transformers
- хорошее понимание ASR, TTS, DSP ML, speech & audio processing
- понимание трансформеров, attention-механизмов, KV-cache, diffusion
- навыки работы с большими датасетами аудио
- опыт работы с streaming / real-time системами
- понимание MLOps-практик: мониторинг моделей, дрейф данных, CI/CD
- умение быстро разбирать и воспроизводить идеи из научных статей
Условия
- опыт работы в доменах речи, музыки или с голосовыми ассистентами
- знание мультимодальных LLM / VLM / Audio-LM
- публикации или исследовательский бэкграунд

