Обязанности:
Повышение скорости и стабильности претрейна YandexGPTМы прокачиваем все составляющие гигантских LLM-обучений: эффективно реализуем разные виды распределённого обучения, значительно ускоряем обучение на тысячи GPU за счёт использования типов пониженной точности и самописных CUDA/Triton-кернелов, экспериментируем с архитектурой, оптимизаторами и др. У вас будет возможность поработать над разными задачами по всему стеку предобучения. Улучшение работы с длинным контекстом
В эпоху AI-агентов и мультимодальных моделей очень важно работать с контекстами в сотни тысяч токенов. Возможность эффективной работы с контекстом такой длины ещё со стадии претрейна — большой инженерный и исследовательский вызов. Будем вместе с ним справляться. Разработка единой кодовой базы для LLM-обучений
Мы работаем над значительным улучшением и ускорением нашей инфраструктуры обучения: дизайним и пишем с нуля модули, которые будут использованы по всему стеку обучения — от претрейна до алаймента и мультимодальных обучений. Если вам всегда хотелось написать свою DL-библиотеку — это отличная возможность. Исследования и инжиниринг в одном флаконе
Вам предстоит проводить эксперименты, изучать самые последние статьи и имплементировать даже недостающие части из них. Наша команда перенимает и улучшает наработки таких компаний, как Nvidia и DeepSeek, и рассказывает об этом на внутренних LLM-семинарах, лекциях в ШАДе и крупных конференциях.
Ключевые навыки:
- Обучали трансформерные модели на PyTorch с нуля
- Умеете писать классный код, знаете лучшие инженерные практики
- Понимаете, как устроены современные LLM
Дополнительные требования:
- Имеете опыт в распределённом обучении: знаете, что такое FSDP и контекстный параллелизм
- Разрабатывали на CUDA/Triton и сможете написать backward для Flash Attention
- Классно знаете математику и можете объяснить, что такое многообразие