Обязанности:
Развивать претрейн мультимодальных моделейВам предстоит исследовать архитектурные решения, рецепты и режимы обучения для VLM. Нужно будет находить подходы, которые улучшают базовые способности модели, усиливают связь между визуальной и текстовой модальностями и дают устойчивый прирост качества не только на открытых бенчмарках, но и в реальных продуктовых задачах. Работать с петабайтами мультимодальных данных
Качество претрейна во многом определяется данными. Вам предстоит работать с огромными массивами мультимодальных данных из разных доменов: image-text, OCR, документы, таблицы, графики, интерфейсы, видео, UGC. Важно принимать решения о составе обучающих данных: какие домены, форматы и пропорции усиливают модель, исследовать scaling laws, как снижать шум и превращать работу с данными в масштабируемый pipeline. Работать с large-scale-обучением
Претрейн VLM — это длинные и ресурсоёмкие обучения, где важна сильная инженерная база. Вы будете работать с распределённым обучением, профилировать узкие места, следить за эффективностью использования GPU, улучшать стабильность запусков и воспроизводимость экспериментов. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Получили опыт в CV, NLP и хорошо понимаете устройство современных LLM/VLM
- Понимаете, как устроено распределённое обучение больших моделей
- Умеете формулировать исследовательские гипотезы и проверять их экспериментально
- Аккуратно ставите эксперименты, корректно сравниваете подходы и умеете выделять реальные улучшения
- Умеете писать рабочий и понятный код и доводить идеи до воспроизводимого результата
Дополнительные требования:
- Обучали большие модели или работали с крупными DL-системами
- Работали с pretrain-пайплайнами для LLM или VLM
- Знакомы с Megatron, DeepSpeed, FSDP, PyTorch Distributed или аналогичными инструментами