Претрейн — первый и самый затратный этап обучения больших языковых моделей (LLM). Его оптимизация даже на несколько процентов может сэкономить компании десятки миллионов рублей. Наша команда отвечает за скорость и стабильность обучения моделей YandexGPT. Мы разрабатываем фреймворк для распределённого обучения на сотнях GPU, ставим много экспериментов, ускоряем и улучшаем базовые модели, которые выкладываются в open source и интегрируются в ключевые сервисы. Помимо нас, нашим фреймворком для обучения пользуются почти все LLM-инженеры Яндекса, а некоторые его части есть в открытом доступе. Например, мы можем похвастаться разработкой YaFSDP, ускоряющего предобучение на 20% в сравнении с решением от Torch. Приглашаем в команду старшего LLM-разработчика. Откликайтесь на вакансию, даже если вы знаете не всё из перечисленного ниже, но очень-очень хотите научиться (и уже учитесь)!

Обязанности:

Повышение скорости и стабильности претрейна YandexGPT
Мы прокачиваем все составляющие гигантских LLM-обучений: эффективно реализуем разные виды распределённого обучения, значительно ускоряем обучение на тысячи GPU за счёт использования типов пониженной точности и самописных CUDA/Triton-кернелов, экспериментируем с архитектурой, оптимизаторами и др. У вас будет возможность поработать над разными задачами по всему стеку предобучения. Улучшение работы с длинным контекстом
В эпоху AI-агентов и мультимодальных моделей очень важно работать с контекстами в сотни тысяч токенов. Возможность эффективной работы с контекстом такой длины ещё со стадии претрейна — большой инженерный и исследовательский вызов. Будем вместе с ним справляться. Разработка единой кодовой базы для LLM-обучений
Мы работаем над значительным улучшением и ускорением нашей инфраструктуры обучения: дизайним и пишем с нуля модули, которые будут использованы по всему стеку обучения — от претрейна до алаймента и мультимодальных обучений. Если вам всегда хотелось написать свою DL-библиотеку — это отличная возможность. Исследования и инжиниринг в одном флаконе
Вам предстоит проводить эксперименты, изучать самые последние статьи и имплементировать даже недостающие части из них. Наша команда перенимает и улучшает наработки таких компаний, как Nvidia и DeepSeek, и рассказывает об этом на внутренних LLM-семинарах, лекциях в ШАДе и крупных конференциях.

Ключевые навыки:

  • Обучали трансформерные модели на PyTorch с нуля
  • Умеете писать классный код, знаете лучшие инженерные практики
  • Понимаете, как устроены современные LLM

Дополнительные требования:

  • Имеете опыт в распределённом обучении: знаете, что такое FSDP и контекстный параллелизм
  • Разрабатывали на CUDA/Triton и сможете написать backward для Flash Attention
  • Классно знаете математику и можете объяснить, что такое многообразие