Обязанности:
Сбор корзин пользовательских запросовВам предстоит систематизировать пользовательские обращения и группировать их по темам, сценариям и типам задач для последующего анализа, тестирования и улучшения качества работы модели. Нужно будет выделять типовые запросы, формировать репрезентативные наборы промптов, следить за полнотой и актуальностью выборки, а также поддерживать структуру данных, которая помогает команде оценивать поведение модели, находить проблемные зоны и быстрее запускать новые продуктовые и исследовательские инициативы. Построение LLM-as-a-Judge
Мы активно используем большие языковые модели в роли разметчика для оценки сигналов ранжирования. Ваша задача — придумать, как оптимизировать LLM-пайплайн, объективно измерить качество LLM в этой роли, выявить её системные ошибки. Приёмка релизов новых моделей
Вы будете проверять качество, стабильность модели и её соответствие внутренним требованиям перед выкаткой на пользователей. Предстоит оценивать поведение модели на подготовленных сценариях и ключевых пользовательских кейсах, сравнивать результаты с предыдущими версиями, фиксировать регрессии и отклонения и формировать заключение о готовности релиза. Также нужно будет оценивать качество ответов на бенчах и сравнивать ответы моделей с результатами конкурентов. Больше об аналитике в Яндексе — в канале Yandex for Analytics
Ключевые навыки:
- Уверенно работаете с Python и SQL
- Знаете на базовом уровне математическую статистику и теорию вероятностей
- Самостоятельны и готовы браться за новые задачи, для которых нет готового решения
- Можете спокойно и аргументированно отстаивать свою точку зрения и выслушивать чужую
Дополнительные требования:
- Работали с BI-инструментами
- Писали инструкции и самостоятельно запускали проекты разметки данных
- Анализировали тексты или обучали языковые модели
- Умеете создавать точные и эффективные промпты для генеративных нейросетей
