Обязанности:
Исследование опенсорсных и создание собственных бенчмарковВы будете анализировать, применимы ли бенчмарки для агентных VLM (GTA, ToolVQA, TIR-BENCH) к нашим продуктовым сценариям, и выявлять пробелы в покрытии. Разрабатывать собственные бенчмарки, отражающие реальные пользовательские запросы к Алисе, с фокусом на multi-image-сценариях, цепочках рассуждений и вызовах тулов в условиях, приближенных к продакшену. Декомпозиция проблем и поиск точек роста
Вы станете детально разбирать ошибки модели на сложных запросах: строить таксономию типов ошибок (визуальное восприятие, логика рассуждений, выбор и применение тулов, форматирование ответа) и измерять вклад каждого класса в общее качество. Это необходимо, чтобы приоритизировать направления улучшения. Создание пайплайнов генерации данных
Вам предстоит разрабатывать масштабируемые пайплайны создания обучающих данных для reasoning- и tool-use-сценариев: генерация траекторий рассуждений, разметка через judge-модели и с участием экспертов, фильтрация по качеству и сложности. Больше об аналитике в Яндексе — в канале Yandex for Analytics
Ключевые навыки:
- Занимались аналитикой больше года
- Уверенно владеете Python и SQL для глубокого анализа данных
- Активно применяете генеративные модели в работе и/или повседневной жизни
Дополнительные требования:
- Участвовали в разработке judge-моделей или в организации разметки с привлечением асессоров и экспертов
- Читаете профессиональную литературу на английском языке
- Знакомы с основами машинного обучения и компьютерного зрения