Алиса — это голосовой помощник Яндекса, который ежедневно помогает миллионам пользователей. Наша цель — создать лучшего AI-ассистента на рынке. Мы занимаемся тем, что оцениваем свойства запросов пользователей и качество ответов на них. Эта информация помогает нам собирать обучение для моделей, заниматься приёмкой релизов и находить векторы развития. Мы ищем аналитика-разработчика, который поможет нам совершенствовать систему сбора корзин, приёмки моделей и сможет проводить исследования. Почему у нас классно * Вы окажетесь в самом центре развития Алисы AI * Будете тесно работать с ML-командой и аналитиками сложных процессов разметки данных * Сможете прокачать технические и коммуникативно-менеджерские навыки * Будете обмениваться опытом с коллегами: аналитиками и ML-инженерами * Улучшите узнаваемый продукт Яндекса — результаты вашей работы увидят миллионы людей, включая ваших друзей и близких

Обязанности:

Сбор корзин пользовательских запросов
Вам предстоит систематизировать пользовательские обращения и группировать их по темам, сценариям и типам задач для последующего анализа, тестирования и улучшения качества работы модели. Нужно будет выделять типовые запросы, формировать репрезентативные наборы промптов, следить за полнотой и актуальностью выборки, а также поддерживать структуру данных, которая помогает команде оценивать поведение модели, находить проблемные зоны и быстрее запускать новые продуктовые и исследовательские инициативы. Построение LLM-as-a-Judge
Мы активно используем большие языковые модели в роли разметчика для оценки сигналов ранжирования. Ваша задача — придумать, как оптимизировать LLM-пайплайн, объективно измерить качество LLM в этой роли, выявить её системные ошибки. Приёмка релизов новых моделей
Вы будете проверять качество, стабильность модели и её соответствие внутренним требованиям перед выкаткой на пользователей. Предстоит оценивать поведение модели на подготовленных сценариях и ключевых пользовательских кейсах, сравнивать результаты с предыдущими версиями, фиксировать регрессии и отклонения и формировать заключение о готовности релиза. Также нужно будет оценивать качество ответов на бенчах и сравнивать ответы моделей с результатами конкурентов. Больше об аналитике в Яндексе — в канале Yandex for Analytics

Ключевые навыки:

Уверенно работаете с Python и SQL
Знаете на базовом уровне математическую статистику и теорию вероятностей
Самостоятельны и готовы браться за новые задачи, для которых нет готового решения
Можете спокойно и аргументированно отстаивать свою точку зрения и выслушивать чужую

Дополнительные требования:

Работали с BI-инструментами
Писали инструкции и самостоятельно запускали проекты разметки данных
Анализировали тексты или обучали языковые модели
Умеете создавать точные и эффективные промпты для генеративных нейросетей

Аналитик-разработчик по оценке AI-моделей

Описание вакансии