Мы разрабатываем новую технологию Нейро для Алисы. Она за минуту решает поисковые задачи, которые обычно занимают у пользователя по несколько часов. Наша цель — уверенно победить конкурентов на российском рынке, среди которых есть очень сильные международные игроки. В основе технологии — нейросеть LLM. Она общается с пользователем в режиме диалога, анализирует данные из интернета и пишет доступные, информативные, наглядные и достоверные ответы. Первый релиз продукта вышел в 2024 году под названием Нейро и принёс много профита Поиску Яндекса. Теперь эта технология стала частью Алисы и продолжает активно развиваться. Наша команда аналитики — ключевая для развития новой Алисы. Каждые полгода совместно с командами ML и продукта мы готовим следующий релиз технологии. В основе каждого релиза — офлайн-разметка качества ответов, которую разрабатываем мы. С помощью разметки оцениваем, насколько ответы Алисы соответствуют нашим продуктовым целям и ожиданиям пользователей: * Сравниваем качество ответов Side-by-Side * Измеряем количество ложной информации и галлюцинаций в ответах с помощью факт-чекинга * Используем крауд-разметку (выполнение заданий людьми), обучаем LLM-as-a-judge, собираем ассистентов на основе LLM для помощи исполнителям в Yandex Crowd Разметка используется как основной инструмент для замера качества — так же как таргет для RLHF при обучении нейросетей. Наши проекты одни из самых сложных и масштабных по офлайн-разметке качества в Яндексе. Мы обладаем уникальным опытом в этой области. Наша команда вовлечена в весь цикл создания технологии от формулировки общих продуктовых требований до отладки и приёмки готовых моделей. Чтобы успешно развивать наши проекты, нам нужно решать разные типы задач: от технических и аналитических до продуктовых.

Обязанности:

Формализация требований к продукту
Вам предстоит разбираться в нечётких продуктовых требованиях, помогать продуктовой команде превращать их в логичные принципы и правила, которые станут чёткой инструкцией для исполнителей в Yandex Crowd и нейросетей. Придумывать, как правильно рассуждать про качество ответа, как находить в нём все фактические ошибки и оценивать их значимость для продукта. Поиск и исправление багов LLM через обучение
Вы будете измерять в числах и улучшать качество обучения для RLHF, вместе с ML-разработчиками постоянно анализировать проблемы текущих версий LLM и исправлять их с помощью нашей разметки, разрабатывать и поддерживать удобные инструменты для сбора обучающей выборки и замера метрик в экспериментах. Глубокий анализ качества разметки
Нужно будет собирать и обновлять эталонные сеты разметки (голденсеты), которые идеально соответствуют продуктовым целям и становятся ориентиром для развития проекта, работать с командой AI-тренеров Яндекса, разбирать с ними примеры сложных заданий, формулировать и уточнять продуктовые принципы, опираясь на данные. Развитие больших проектов в Yandex Crowd
Предстоит набирать, обучать и тестировать исполнителей для разметки, разрабатывать процессы постоянного контроля качества, бана и реабилитации, создавать удобные дашборды, которые позволяют быстро отвечать на вопросы про производительность, стоимость и качество нашей разметки. Больше об аналитике в Яндексе — в канале Yandex for Analytics

Ключевые навыки:

Понимаете, почему важно всегда смотреть в данные
Уверенно пишете на Python и знаете алгоритмы
Знаете математическую статистику и использовали её для проверки гипотез

Дополнительные требования:

Интересуетесь продуктом, стремитесь понять, каким он должен быть и почему
Умеете общаться, ясно излагать мысли, понимать и учитывать мнение коллег, убеждать
Работали с табличными данными на SQL
Имели дело с крауд-проектами, например делали разметку в Толоке
Знаете основы машинного обучения

Аналитик-разработчик в Нейро

Описание вакансии