Алиса — один из самых популярных эмпатичных ассистентов в России, которым ежедневно пользуются миллионы людей. Наша команда создаёт ассистента, который решает задачу пользователя: от «нужно» до «готово». Мы ищем аналитика-разработчика в команду ML-аналитики, чтобы вместе строить системы оценки качества для передовых LLM и агентских моделей. Ваша работа будет фундаментом, на котором мы создаём умного и полезного помощника, способного решать сложные задачи в реальном мире.

Обязанности:

Построение системы оценки качества ответов моделей
Вам предстоит разработать и внедрить систему LLM-as-a-judge для автоматической оценки ответов наших моделей. Это ключевой шаг в переходе от устаревших подходов к современным методам контроля качества, который напрямую повлияет на развитие продукта. Создание пайплайнов обработки данных
Вы будете работать с текстовыми и мультимодальными данными, создавая надёжные и эффективные пайплайны для сбора данных обучения и оценки. Ваша задача — автоматизировать процессы, чтобы данные были всегда актуальными и качественными. Разработка end-to-end-метрик для Алисы
В рамках большой перестройки подходов к аналитике вы поможете разработать общую систему офлайн-метрик. Это включает в себя определение критериев качества, создание пайплайнов оценки и поиск данных, которые помогут нам создавать по-настоящему «вау-продукт». Встраивание решений в продакшен
Созданные вами инструменты и метрики не должны оставаться в виде прототипов. Важной частью работы будет интеграция ваших решений в продовые процессы команды ML-разработчиков и аналитиков. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Владеете SQL и Python, используете Pandas
  • Знаете теорию вероятностей и математическую статистику
  • Умеете писать аналитический продакшен-код и создавать инструкции, способны видеть продукт или проект в целом
  • Обладаете навыками анализа и построения эффективных процессов обработки данных
  • Инициативны и готовы к самостоятельному поиску решений

Дополнительные требования:

  • Работали с NLP, краудсорсинговыми разметками и ML