Обязанности:
Оптимизация обучений в контексте RLВ современных открытых решениях использование GPU не превышает 10%, что крайне неэффективно. Вам предстоит ускорить обучение в этой схеме. Построение более эффективных схем коммуникаций
Комбинация YaFSDP + YCCL + FP8 позволяет обучать модели, имеющие сотни миллиардов параметров, с максимальной производительностью. Но для больших моделей требуются более сложные схемы: Pipeline Parallelism, продвинутый Expert Parallelism, Context Parallelism. Выполнение низкоуровневых оптимизаций
Мы стремимся к тому, чтобы тензорные ядра были нагружены по максимуму. Вы будете проводить нетривиальные оптимизации на низком уровне с написанием кода на Triton, CUDA или CuTe DSL. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Работали с современными LLM, понимаете их архитектуру
- Пишете на Python, имеете опыт разработки на Torch
- Знакомы с процессом обучения DL-моделей, умеете выполнять оптимизации
- Понимаете основы распределённого обучения; знаете, почему FSDP лучше DDP, как используется FP8 в обучении и что лучше: TP или EP
