Обязанности:
Развитие базовых reasoning-способностей YandexGPTБлижайшая цель нашей команды — научиться эффективнее масштабировать RLVR- и RLHF-обучение reasoning-моделей для B2C‑задач широкого круга пользователей. Вас ждут эксперименты по улучшению общих свойств модели (полезность, логичность, структура) за счёт повышения качества цепочек рассуждений и усиления различных паттернов (backtracking, верификация) на задачах разной тематики. Объединение сигналов в общей модели
Важную роль в reasoning‑моделях играют качественно новые схемы обучения для объединения знаний из разных областей. Мы стремимся создать новые этапы алайнмента и системы наград, которые позволят совместить сигналы на математических и научных задачах вместе с креативными, одновременно повысив качество рассуждений в каждой области по сравнению с независимым обучением. Вам предстоит проводить исследования с новыми reward‑моделями, этапами и дистилляцией в рамках единой модели. Эксперименты с RL-алгоритмами
Вам предстоит пробовать новые SOTA подходы и находить в них те, которые приносят пользу реальному продукту: экспериментировать с различными on‑policy и асинхронными RL‑алгоритмами, а также тестировать новые методы стабилизации обучения Dense‑ и MoE‑архитектур. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Отлично разбираетесь в NLP и классическом ML
- Умеете программировать на Python
- Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
