Обязанности:
Обучение следованию инструкциям пользователя (supervised finetuning, SFT)Чтобы превратить предобученную LLM в диалогового агента, нужно собирать множество демонстраций желаемого поведения модели на разнообразных задачах. Какие именно задачи важнее, насколько сложными могут быть демонстрации, каких навыков модели не хватает для решения конкретной задачи и как модель может выучить этот навык на стадии алайнмента? Это примеры вопросов, на которые мы ищем ответы с помощью ML-экспериментов. Обучение модели на предпочтения пользователей (RLHF)
После стадии SFT качество ответов одной модели даже на одном запросе может очень сильно различаться. Мы собираем разметку об относительном качестве ответов модели и учим её генерировать ответ лучшего качества, на которое она способна. На данном этапе применяются такие алгоритмы, как DPO и PPO, также мы экспериментируем с другими способами RLHF. Обучение модели оценки качества ответов (reward modeling)
Разметка качества ответов людьми — очень дорогой и небыстрый процесс, а некоторые алгоритмы RLHF (PPO) требуют разметки в реальном времени. Для этого мы развиваем свою линейку реворд-моделей, которые могут быстро и достаточно близко к человеку оценить качество ответа модели. Разработка новых навыков и борьба со слабыми местами модели
Мы постоянно ищем примеры задач, с которыми наши модели справляются ещё недостаточно хорошо. Улучшение качества на таких срезах иногда требует изменений на всех стадиях обучения.
Ключевые навыки:
- Отлично знаете классические ML и NLP
- Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
- Не боитесь работать с данными и SQL