Обязанности:
Построение системы оценки качества ответов моделейВам предстоит разработать и внедрить систему LLM-as-a-judge для автоматической оценки ответов наших моделей. Это ключевой шаг в переходе от устаревших подходов к современным методам контроля качества, который напрямую повлияет на развитие продукта. Создание пайплайнов обработки данных
Вы будете работать с текстовыми и мультимодальными данными, создавая надёжные и эффективные пайплайны для сбора данных обучения и оценки. Ваша задача — автоматизировать процессы, чтобы данные были всегда актуальными и качественными. Разработка end-to-end-метрик для Алисы
В рамках большой перестройки подходов к аналитике вы поможете разработать общую систему офлайн-метрик. Это включает в себя определение критериев качества, создание пайплайнов оценки и поиск данных, которые помогут нам создавать по-настоящему «вау-продукт». Встраивание решений в продакшен
Созданные вами инструменты и метрики не должны оставаться в виде прототипов. Важной частью работы будет интеграция ваших решений в продовые процессы команды ML-разработчиков и аналитиков. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Владеете SQL и Python, используете Pandas
- Знаете теорию вероятностей и математическую статистику
- Умеете писать аналитический продакшен-код и создавать инструкции, способны видеть продукт или проект в целом
- Обладаете навыками анализа и построения эффективных процессов обработки данных
- Инициативны и готовы к самостоятельному поиску решений
Дополнительные требования:
- Работали с NLP, краудсорсинговыми разметками и ML