Наша команда улучшает способности к рассуждениям семейства моделей Alice AI LLM. Мы стремимся к новой масштабной цели: создать единую модель, объединяющую сильные стороны рассуждений, использование внешних функций и поисковые возможности наших сервисов вместе. Мы также хотим перейти от сложных математических и научных задач к улучшению качества ответов на повседневные запросы пользователей. Для этого мы экспериментируем с алгоритмами RLVR и RLHF, с многостадийным алайнментом, комбинируем генеративные и rule‑based reward‑модели в единой системе для обучения модели, способной решать широкий спектр задач.

Обязанности:

Развитие базовых reasoning-способностей YandexGPT
Ближайшая цель нашей команды — научиться эффективнее масштабировать RLVR- и RLHF-обучение reasoning-моделей для B2C‑задач широкого круга пользователей. Вас ждут эксперименты по улучшению общих свойств модели (полезность, логичность, структура) за счёт повышения качества цепочек рассуждений и усиления различных паттернов (backtracking, верификация) на задачах разной тематики. Объединение сигналов в общей модели
Важную роль в reasoning‑моделях играют качественно новые схемы обучения для объединения знаний из разных областей. Мы стремимся создать новые этапы алайнмента и системы наград, которые позволят совместить сигналы на математических и научных задачах вместе с креативными, одновременно повысив качество рассуждений в каждой области по сравнению с независимым обучением. Вам предстоит проводить исследования с новыми reward‑моделями, этапами и дистилляцией в рамках единой модели. Эксперименты с RL-алгоритмами
Вам предстоит пробовать новые SOTA подходы и находить в них те, которые приносят пользу реальному продукту: экспериментировать с различными on‑policy и асинхронными RL‑алгоритмами, а также тестировать новые методы стабилизации обучения Dense‑ и MoE‑архитектур. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Отлично разбираетесь в NLP и классическом ML
  • Умеете программировать на Python
  • Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт