Обязанности:
Анализ качества работы LLM и поиск точек ростаВам предстоит глубоко разбираться в качестве работы модели: анализировать пользовательские сценарии и проблемные кейсы, сегментировать ошибки и DSAT, искать закономерности через data mining. Затем — формировать гипотезы, как повысить качество, и оценивать влияние изменений на пользовательский опыт. Вы поможете команде понять, где модель ошибается, почему это происходит и какие улучшения дадут максимальный эффект. Масштабирование сценариев через tool calling
Вы будете участвовать в переводе ключевых сценариев Алисы (музыка, погода, поиск мест, команды устройств и др.) на новую LLM-архитектуру. Для этого нужно анализировать пользовательские запросы и сценарии, помогать проектировать инструменты и сценарии вызова функций, выявлять точки роста, собирать данные для обучения и приёмки моделей, участвовать в формировании eval-наборов и метрик. Построение системы оценки качества AI-ассистента
Вместе с командой вы станете развивать систему оценки качества: офлайн-метрики, LLM-as-a-judge, сценарные evals, онлайн-метрики и A/B-эксперименты, мониторинг деградаций, аналитические дашборды и т. п. Больше об аналитике в Яндексе — в канале Yandex for Analytics
Ключевые навыки:
- Больше двух лет работали Data Analyst, Product Analyst или Analyst в data-driven-продукте
- Работали с LLM либо Generative AI (помимо решения бытовых задач) и хотите создавать свои AI-системы
- Уверенно владеете SQL и Python для анализа данных
- Умеете работать с большими объёмами логов и событийных данных
- Занимались продуктовой аналитикой и искали инсайты через данные
- Понимаете основы статистики и A/B-тестирования
- Умеете формулировать продуктовые гипотезы и оценивать их эффект
- Системно мыслите, умеете разбираться в сложных многокомпонентных продуктах
Дополнительные требования:
- Работали с LLM-based-продуктами или AI-ассистентами
- Оценивали качество LLM (LLM-as-a-judge, evals, RAG и т. п.)
- Знакомы с концепциями Agentic AI и tool calling
- Строили дашборды (Tableau, DataLens, Superset и др.)
- Работали с NLP/NLU-продуктами или голосовыми ассистентами
- Понимаете, как устроен цикл обучения и улучшения ML/LLM-моделей
- Умеете работать с неструктурированными данными и текстовыми логами