Алиса — самый популярный ассистент в России, которым ежедневно пользуются миллионы людей. Наша команда находится на острие технологий: благодаря нам Алиса не просто отвечает на вопросы, а решает задачи пользователя в реальном мире за счёт агентности. Мы переводим взаимодействие с умными устройствами (колонками, телевизорами) на новую архитектуру. В ней большая языковая модель (LLM) самостоятельно вызывает нужные функции-инструменты (tool calling / gpt-tools), чтобы выполнять пользовательские запросы: от включения музыки до построения маршрутов. Ищем аналитика, который поможет масштабировать новую архитектуру на все сценарии Алисы, глубоко разбираться в качестве работы модели, находить точки роста и выстраивать систему оценки умности ассистента. Вы напрямую повлияете на то, насколько умной, полезной, надёжной и эмпатичной станет Алиса.

Обязанности:

Анализ качества работы LLM и поиск точек роста
Вам предстоит глубоко разбираться в качестве работы модели: анализировать пользовательские сценарии и проблемные кейсы, сегментировать ошибки и DSAT, искать закономерности через data mining. Затем — формировать гипотезы, как повысить качество, и оценивать влияние изменений на пользовательский опыт. Вы поможете команде понять, где модель ошибается, почему это происходит и какие улучшения дадут максимальный эффект. Масштабирование сценариев через tool calling
Вы будете участвовать в переводе ключевых сценариев Алисы (музыка, погода, поиск мест, команды устройств и др.) на новую LLM-архитектуру. Для этого нужно анализировать пользовательские запросы и сценарии, помогать проектировать инструменты и сценарии вызова функций, выявлять точки роста, собирать данные для обучения и приёмки моделей, участвовать в формировании eval-наборов и метрик. Построение системы оценки качества AI-ассистента
Вместе с командой вы станете развивать систему оценки качества: офлайн-метрики, LLM-as-a-judge, сценарные evals, онлайн-метрики и A/B-эксперименты, мониторинг деградаций, аналитические дашборды и т. п. Больше об аналитике в Яндексе — в канале Yandex for Analytics

Ключевые навыки:

  • Больше двух лет работали Data Analyst, Product Analyst или Analyst в data-driven-продукте
  • Работали с LLM либо Generative AI (помимо решения бытовых задач) и хотите создавать свои AI-системы
  • Уверенно владеете SQL и Python для анализа данных
  • Умеете работать с большими объёмами логов и событийных данных
  • Занимались продуктовой аналитикой и искали инсайты через данные
  • Понимаете основы статистики и A/B-тестирования
  • Умеете формулировать продуктовые гипотезы и оценивать их эффект
  • Системно мыслите, умеете разбираться в сложных многокомпонентных продуктах

Дополнительные требования:

  • Работали с LLM-based-продуктами или AI-ассистентами
  • Оценивали качество LLM (LLM-as-a-judge, evals, RAG и т. п.)
  • Знакомы с концепциями Agentic AI и tool calling
  • Строили дашборды (Tableau, DataLens, Superset и др.)
  • Работали с NLP/NLU-продуктами или голосовыми ассистентами
  • Понимаете, как устроен цикл обучения и улучшения ML/LLM-моделей
  • Умеете работать с неструктурированными данными и текстовыми логами