Мы занимаемся претрейном Alice AI LLM (ранее — YandexGPT) уже пять лет. За это время наша команда: * Обучила большую часть языковых моделей, которые используются в Яндексе * Разработала фреймворк для распределённого обучения больших языковых моделей (используется для претрейна, алайнмента, даунстрим-применений, а также для обучения VLM и SpeechGPT) * Разработала технологию YaFSDP, которая ускоряет обучение моделей с 70 млрд параметров на 20–50% * Разработала фреймворк YCCL, который даёт кратный прирост по скорости коммуникаций в наших обучениях * Сэкономила тысячи GPU на инференсе моделей за счёт оптимизаций и помощи другим командам Мы ищем опытных инфраструктурных и DL-инженеров для работы в команде инфраструктуры претрейна Alice AI LLM.

Обязанности:

Оптимизация обучений в контексте RL
В современных открытых решениях использование GPU не превышает 10%, что крайне неэффективно. Вам предстоит ускорить обучение в этой схеме. Построение более эффективных схем коммуникаций
Комбинация YaFSDP + YCCL + FP8 позволяет обучать модели, имеющие сотни миллиардов параметров, с максимальной производительностью. Но для больших моделей требуются более сложные схемы: Pipeline Parallelism, продвинутый Expert Parallelism, Context Parallelism. Выполнение низкоуровневых оптимизаций
Мы стремимся к тому, чтобы тензорные ядра были нагружены по максимуму. Вы будете проводить нетривиальные оптимизации на низком уровне с написанием кода на Triton, CUDA или CuTe DSL. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Работали с современными LLM, понимаете их архитектуру
  • Пишете на Python, имеете опыт разработки на Torch
  • Знакомы с процессом обучения DL-моделей, умеете выполнять оптимизации
  • Понимаете основы распределённого обучения; знаете, почему FSDP лучше DDP, как используется FP8 в обучении и что лучше: TP или EP