Обязанности:
Обучение аудиоязыковых моделейВы будете участвовать в полном цикле обучения моделей: претрейне, SFT и GRPO. Нужно будет проектировать эксперименты, анализировать качество, находить слабые места моделей и улучшать их на сложных срезах данных. Исследование архитектур и рецептов обучения
Предстоит разбираться в современных подходах к LLM, audio encoders, speech/audio understanding, multimodal alignment и обучению моделей по reward-сигналам. Важно будет следить за развитием области, читать статьи, обсуждать идеи с командой и проверять перспективные гипотезы на практике. Работа с данными и метриками качества
Вам нужно будет участвовать в построении датасетов, формулировать задачи для обучения и оценки, выбирать метрики для разных сценариев: распознавание речи, понимание акустических событий, диалоговые способности, устойчивость к шуму и следование инструкциям по аудио. Развитие исследовательской и инженерной инфраструктуры
Мы обучаем большие модели, поэтому важны не только идеи, но и качество реализации: воспроизводимые эксперименты, эффективные пайплайны, стабильное обучение, анализ логов, оптимизация узких мест и аккуратная работа с большими вычислениями. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Обучали LLM или мультимодальные модели
- Понимаете полный цикл ML-разработки: от идеи и эксперимента до анализа качества и внедрения улучшений
- Умеете разбираться в современных ML-статьях, формулировать на их основе гипотезы, проводить эксперименты и делать выводы по результатам
- Готовы отвечать за направление, архитектурные решения или крупный исследовательский трек
Дополнительные требования:
- Работали с аудио, речевыми технологиями, ASR, TTS, speaker/audio understanding или audio representation learning
- Обучали мультимодальные модели или применяли SFT, RLHF, DPO, GRPO и другие методы посттрейна
- Работали с распределённым обучением, большими датасетами и инфраструктурой для обучения крупных моделей
- Внедряли ML-модели в продуктовые или внутренние продакшен-сценарии
- Участвовали в исследовательских проектах, опенсорсных или ML-соревнованиях, имеете публикации