Наша команда занимается стадией алайнмента YandexGPT. Мы превращаем LLM, обученную предсказывать следующий токен в документах из интернета, в диалогового агента, способного выполнить широкий спектр запросов пользователя.

Обязанности:

Обучение следованию инструкциям пользователя (supervised finetuning, SFT)
Чтобы превратить предобученную LLM в диалогового агента, нужно собирать множество демонстраций желаемого поведения модели на разнообразных задачах. Какие именно задачи важнее, насколько сложными могут быть демонстрации, каких навыков модели не хватает для решения конкретной задачи и как модель может выучить этот навык на стадии алайнмента? Это примеры вопросов, на которые мы ищем ответы с помощью ML-экспериментов. Обучение модели на предпочтения пользователей (RLHF)
После стадии SFT качество ответов одной модели даже на одном запросе может очень сильно различаться. Мы собираем разметку об относительном качестве ответов модели и учим её генерировать ответ лучшего качества, на которое она способна. На данном этапе применяются такие алгоритмы, как DPO и PPO, также мы экспериментируем с другими способами RLHF. Обучение модели оценки качества ответов (reward modeling)
Разметка качества ответов людьми — очень дорогой и небыстрый процесс, а некоторые алгоритмы RLHF (PPO) требуют разметки в реальном времени. Для этого мы развиваем свою линейку реворд-моделей, которые могут быстро и достаточно близко к человеку оценить качество ответа модели. Разработка новых навыков и борьба со слабыми местами модели
Мы постоянно ищем примеры задач, с которыми наши модели справляются ещё недостаточно хорошо. Улучшение качества на таких срезах иногда требует изменений на всех стадиях обучения.

Ключевые навыки:

  • Отлично знаете классические ML и NLP
  • Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
  • Не боитесь работать с данными и SQL