Наша команда занимается аналитикой качества Alice AI VLM. Мы оцениваем качество модели, ищем точки роста, а также создаём и улучшаем данные для её обучения. Мы работаем над созданием агентной системы, которая повысит качество ответов Алисы и на сложных запросах пользователей, и на опенсорсных бенчмарках. Для этого мы хотим научить нашу модель рассуждать перед ответом, а также вызывать тулы при необходимости.

Обязанности:

Исследование опенсорсных и создание собственных бенчмарков
Вы будете анализировать, применимы ли бенчмарки для агентных VLM (GTA, ToolVQA, TIR-BENCH) к нашим продуктовым сценариям, и выявлять пробелы в покрытии. Разрабатывать собственные бенчмарки, отражающие реальные пользовательские запросы к Алисе, с фокусом на multi-image-сценариях, цепочках рассуждений и вызовах тулов в условиях, приближенных к продакшену. Декомпозиция проблем и поиск точек роста
Вы станете детально разбирать ошибки модели на сложных запросах: строить таксономию типов ошибок (визуальное восприятие, логика рассуждений, выбор и применение тулов, форматирование ответа) и измерять вклад каждого класса в общее качество. Это необходимо, чтобы приоритизировать направления улучшения. Создание пайплайнов генерации данных
Вам предстоит разрабатывать масштабируемые пайплайны создания обучающих данных для reasoning- и tool-use-сценариев: генерация траекторий рассуждений, разметка через judge-модели и с участием экспертов, фильтрация по качеству и сложности. Больше об аналитике в Яндексе — в канале Yandex for Analytics

Ключевые навыки:

  • Занимались аналитикой больше года
  • Уверенно владеете Python и SQL для глубокого анализа данных
  • Активно применяете генеративные модели в работе и/или повседневной жизни

Дополнительные требования:

  • Участвовали в разработке judge-моделей или в организации разметки с привлечением асессоров и экспертов
  • Читаете профессиональную литературу на английском языке
  • Знакомы с основами машинного обучения и компьютерного зрения