Наша команда работает над развитием ризонинга у генеративных моделей Alice AI LLM. Мы стремимся научить модели действовать, как человек: составлять план решения, проверять разные подходы и верифицировать ответ. Многомиллионная аудитория Алисы уже оценила пользу этой технологии при помощи режима «Рассуждать». В работе мы основательно подходим к инженерии данных на всех стадиях. Наша цель — не только научить модель решать сложные математические задачи, но и сделать её полезной для решения широкого круга проблем. Для этого мы используем самые последние наработки из области Reinforcement Learning и активно внедряем собственные. Много времени посвящаем экспериментам с архитектурами и алгоритмами обучения, не ограничивая себя в работе только мейнстрим-рецептами ризонинга. Если вам близки наши цели и подходы к работе, будем рады видеть вас в нашей команде!

Обязанности:

Создание новых наборов данных
Разнообразие вопросов к LLM растёт. Но модели, которые щелкают математику как орешки, могут плохо справляться с задачами из других областей. Чтобы повысить качество рассуждений и ответов, необходимы данные различных уровней сложности и тематик. Вы сможете задействовать свои профессиональные компетенции, создавая подобные наборы задач. Улучшение функций награды
В эффективном обучении модели навыкам ризонинга ключевую роль играет функция награды. Благодаря ей модель учится выбирать корректные стратегии — скажем, выстраивать более лаконичные цепочки рассуждений, не снижая качества ответа. Однако в задачах, где результат непросто верифицировать (в отличие от, например, программирования или математических расчётов), создание такой функции становится серьёзным испытанием. Вашей задачей будет разработка надёжной функции награды. Развитие процедуры обучения
Оптимальная конфигурация обучения рассуждающих моделей — открытый исследовательский вопрос. Существуют различные направления для экспериментов: on-policy- и off-policy-обучение, адаптивное управления энтропией модели, способы расчёта advantage. Также требует внимания выбор подходящего функционала для минимизации, например, для Dense- и MoE-архитектур. Вы будете проводить подобные исследования и находить лучшие настройки для достижения поставленных целей. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Отлично знаете математику, классические алгоритмы и структуры данных
  • Умеете программировать на Python
  • Разбираетесь в Reinforcement Learning. Вас не пугают такие слова, как GAE, PPO, GRPO и другие версии policy optimization
  • Имеете практический опыт в распределённом обучении больших моделей на основе архитектуры Transformer
  • Понимаете, как устроена стадия alignment'а современных LLM

Дополнительные требования:

  • Обучали рассуждающие (reasoning) модели
  • Работали c инфраструктурой для RL-обучения: VERL, vLLM, SGLang, etc.