Обязанности:
Строить датасеты для мультимодального reasoningВам предстоит работать с данными, на которых формируются reasoning-способности модели: собирать и обрабатывать датасеты, проектировать форматы задач, искать сложные и показательные кейсы. Важно понимать, какие типы данных действительно учат модель рассуждать лучше на документах, таблицах, графиках, интерфейсах, сложных изображениях и видео, а какие дают лишь локальный прирост на узких сценариях. Разрабатывать методы обучения, post-training и RL для reasoning
Вы будете разрабатывать и улучшать подходы, которые усиливают мультимодальный reasoning модели: SFT, self-improvement, reward-driven-обучение, test-time-стратегии и RL-алгоритмы. Здесь важно не только предлагать хорошие идеи, но и превращать их в работающий pipeline: подбирать постановку задачи, источник сигнала, функцию награды и режим обучения, которые реально повышают качество рассуждений и делают поведение модели устойчивее на сложных кейсах. Строить tool calling и agentic vision
Мы хотим, чтобы модель умела не только отвечать по изображению, но и действовать: вызывать инструменты, работать с OCR, парсерами, браузером и другими внешними системами, если это нужно для решения задачи. Вам предстоит развивать подходы, в которых VLM становится агентом: планирует шаги, использует инструменты и решает визуальные задачи в средах, близких к реальным продуктовым сценариям. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Хорошо знаете ML и уверенно ориентируетесь в современных LLM/VLM
- Имеете практический опыт в CV, NLP или мультимодальном обучении
- Знакомы с Reinforcement Learning и понимаете, где RL-подходы применимы
- Умеете формулировать гипотезы, ставить аккуратные эксперименты и делать выводы по результатам
Дополнительные требования:
- Работали с reasoning-задачами, post-training, alignment
- Обучали большие модели или large-scale ML-системы
- Знакомы с tool calling, агентными пайплайнами или обучением моделей работе с внешними инструментами
- Понимаете ограничения современных VLM и следите за трендами в multimodal reasoning