Обязанности:
Построение системы оценки качества ответов моделейВам предстоит разработать и внедрить системы VLM-as-a-judge и LLM-as-a-judge для автоматической оценки ответов наших моделей. Это ключевой шаг в переходе от устаревших подходов к современным методам контроля качества, который напрямую повлияет на развитие продукта. Формализация требований к качеству продукта
Наша основная задача — превратить плохо формализованное и противоречивое определение продукта в набор чётких правил и принципов, с помощью которых мы сможем обозначить конкретный ответ как хороший (подходящий для продукта) или плохой (указывающий на ошибку в продукте) и обосновать такое решение. Сначала мы учимся делать это сами (собираем и обсуждаем примеры, пишем инструкции), а затем обучаем этому AI-тренеров и асессоров. Аналитические задачи вокруг ML-моделей
Мы оптимизируем сбор лёрна, занимаемся валидацией и приёмкой моделей, мониторим состояние прода, ищем проблемы. Больше об аналитике в Яндексе — в канале Yandex for Analytics
Ключевые навыки:
- Умеете писать на Python и SQL
- Знаете математическую статистику и теорию вероятностей
- Можете общаться в команде, ясно излагать мысли, понимать и убеждать коллег
- Самостоятельны и готовы браться за новые задачи, для которых нет готового решения
- Въедливы, готовы до мелочей разбираться в том, как и почему должен работать продукт
Дополнительные требования:
- Работали с Толокой или другими краудсорс-платформами
- Писали инструкции и самостоятельно запускали проекты разметки данных
- Работали с машинным обучением и нейронными сетями