Наша команда обучает аудиоязыковые модели нового поколения. Мы хотим, чтобы одна модель могла понимать звучащий вокруг мир: речь, интонацию, настроение собеседника, фоновые события, музыку, шумы и другие акустические сигналы. Мы решаем задачу в общем виде: строим модели, которые умеют воспринимать аудио как часть полноценного контекста и использовать это понимание в диалоговых и аналитических сценариях. Такие модели мы хотим применять как в сервисах Яндекса, так и для внутренних задач компании. Ищем сильного ML-инженера, который сможет влиять на архитектуру, обучение и качество моделей: от исследовательских гипотез до работающих пайплайнов обучения.

Обязанности:

Обучение аудиоязыковых моделей
Вы будете участвовать в полном цикле обучения моделей: претрейне, SFT и GRPO. Нужно будет проектировать эксперименты, анализировать качество, находить слабые места моделей и улучшать их на сложных срезах данных. Исследование архитектур и рецептов обучения
Предстоит разбираться в современных подходах к LLM, audio encoders, speech/audio understanding, multimodal alignment и обучению моделей по reward-сигналам. Важно будет следить за развитием области, читать статьи, обсуждать идеи с командой и проверять перспективные гипотезы на практике. Работа с данными и метриками качества
Вам нужно будет участвовать в построении датасетов, формулировать задачи для обучения и оценки, выбирать метрики для разных сценариев: распознавание речи, понимание акустических событий, диалоговые способности, устойчивость к шуму и следование инструкциям по аудио. Развитие исследовательской и инженерной инфраструктуры
Мы обучаем большие модели, поэтому важны не только идеи, но и качество реализации: воспроизводимые эксперименты, эффективные пайплайны, стабильное обучение, анализ логов, оптимизация узких мест и аккуратная работа с большими вычислениями. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

Обучали LLM или мультимодальные модели
Понимаете полный цикл ML-разработки: от идеи и эксперимента до анализа качества и внедрения улучшений
Умеете разбираться в современных ML-статьях, формулировать на их основе гипотезы, проводить эксперименты и делать выводы по результатам
Готовы отвечать за направление, архитектурные решения или крупный исследовательский трек

Дополнительные требования:

Работали с аудио, речевыми технологиями, ASR, TTS, speaker/audio understanding или audio representation learning
Обучали мультимодальные модели или применяли SFT, RLHF, DPO, GRPO и другие методы посттрейна
Работали с распределённым обучением, большими датасетами и инфраструктурой для обучения крупных моделей
Внедряли ML-модели в продуктовые или внутренние продакшен-сценарии
Участвовали в исследовательских проектах, опенсорсных или ML-соревнованиях, имеете публикации

ML-инженер в команду аудиоязыковых моделей

Описание вакансии