Аналитик-разработчик мультимодальных моделей

Hybrid

Full time

Middle

PythonreasoningVLMYandexдекомпозицияАналитикЛогика

Job description

Наша команда занимается аналитикой качества Alice AI VLM. Мы оцениваем качество модели, ищем точки роста, а также создаём и улучшаем данные для её обучения. Мы работаем над созданием агентной системы, которая повысит качество ответов Алисы и на сложных запросах пользователей, и на опенсорсных бенчмарках. Для этого мы хотим научить нашу модель рассуждать перед ответом, а также вызывать тулы при необходимости.

Обязанности:

Исследование опенсорсных и создание собственных бенчмарков
Вы будете анализировать, применимы ли бенчмарки для агентных VLM (GTA, ToolVQA, TIR-BENCH) к нашим продуктовым сценариям, и выявлять пробелы в покрытии. Разрабатывать собственные бенчмарки, отражающие реальные пользовательские запросы к Алисе, с фокусом на multi-image-сценариях, цепочках рассуждений и вызовах тулов в условиях, приближенных к продакшену. Декомпозиция проблем и поиск точек роста
Вы станете детально разбирать ошибки модели на сложных запросах: строить таксономию типов ошибок (визуальное восприятие, логика рассуждений, выбор и применение тулов, форматирование ответа) и измерять вклад каждого класса в общее качество. Это необходимо, чтобы приоритизировать направления улучшения. Создание пайплайнов генерации данных
Вам предстоит разрабатывать масштабируемые пайплайны создания обучающих данных для reasoning- и tool-use-сценариев: генерация траекторий рассуждений, разметка через judge-модели и с участием экспертов, фильтрация по качеству и сложности. Больше об аналитике в Яндексе — в канале Yandex for Analytics

Ключевые навыки:

Занимались аналитикой больше года
Уверенно владеете Python и SQL для глубокого анализа данных
Активно применяете генеративные модели в работе и/или повседневной жизни

Дополнительные требования:

Участвовали в разработке judge-моделей или в организации разметки с привлечением асессоров и экспертов
Читаете профессиональную литературу на английском языке
Знакомы с основами машинного обучения и компьютерного зрения

Match

Good match

We match every vacancy against your profile and show a fit score — so you instantly know which ones are worth applying to. Sign up and create a resume — it's free.

Not enough data to estimate a salary range for this role in this region yet.