Сигналы ранжирования — это таргеты для ML-моделей поиска: размеченные асессорами оценки релевантности и качества страниц. От качества таких сигналов напрямую зависит, насколько хорошо работает Поиск. Мы меняем то, как эта разметка создаётся: вместо ручного труда сотен асессоров — LLM-пайплайны. Вас ожидают задачи на стыке аналитики и ML-инфраструктуры: нужно будет проектировать инструменты разметки, строить бенчмарки с нуля и доказывать, что каждое изменение действительно улучшает качество.

Обязанности:

Построение LLM-as-a-Judge
Мы активно используем большие языковые модели в роли разметчика для оценки сигналов ранжирования. Ваша задача — придумать, как оптимизировать LLM-пайплайн, объективно измерить качество LLM в этой роли, выявить её системные ошибки. Методология замены ручной разметки автоматикой
Вам предстоит разрабатывать подходы к замещению труда разметчиков с помощью LLM. Нужно не просто внедрить автоматизацию, а доказать, что качество сигнала при этом не ухудшилось или даже улучшилось. Это требует создания сложных бенчмарков и методик валидации. Исследование влияния изменений на ранжирование
Работа с поисковыми сигналами требует понимания, как изменения в разметке или сигнале трансформируют финальное ранжирование. Вы будете проектировать дизайн экспериментов офлайн и онлайн, строить срезы данных и находить скрытые проблемы, которые могут повлиять на пользовательский опыт. Больше об аналитике в Яндексе — в канале Yandex for Analytics

Ключевые навыки:

  • Решали задачи на стыке аналитики и разработки: уверенно работаете с SQL и Python (pandas, numpy)
  • Понимаете принципы машинного обучения: знаете, как устроены метрики качества ML-моделей — precision, recall, ndcg; работали с LLM или понимаете их специфику: промпт-инжиниринг, оценку качества генерации
  • Умеете выстраивать эксперименты: знаете, как обеспечить статистическую значимость выводов, работали с A/B-тестированием
  • Склонны к методологической работе: вам интересно не просто «посчитать цифру», а придумать способ измерения там, где готового инструмента нет, и защитить свой подход
  • Умеете декомпозировать сложные проблемы на измеримые компоненты