Обязанности:
Ускорение моделей алгоритмически и кодовоГлобальная цель — минимизировать latency, увеличить bandwidth доступного железа и сохранить качество модели на топовом уровне. У нас уже есть артефакты, но остаётся много пространства для улучшений. Вам предстоит исследовать методы дистилляции и ускорения диффузионных моделей, искать подходы, которые ускоряют генерацию без просадки на целевых метриках, ускорять код: профилировать, устранять узкие места, оптимизировать использование GPU. Нужно будет работать с PyTorch Profiler, Nsight Systems, TensorRT и внутренними инструментами мониторинга, доводить решения до продакшна: отдавать чекпойнты, рабочий код, Docker‑контейнеры. Работа с данными
Качество дистилляции сильно зависит от датасета, поэтому работа с данными — ключевой аспект роли. Вам предстоит принимать решения о составе обучающих данных: доменах, форматах, пропорциях для усиления модели. Вы будете снижать шум, собирать недостающие срезы, превращать работу с данными в масштабируемый пайплайн. Распределённое обучение
Мы обучаем большие модели на кластерах GPU. Вам предстоит работать с FSDP/ZeRO, профилировать bottleneck’и, максимизировать утилизацию, обеспечивать стабильность и воспроизводимость экспериментов. Больше об ML в Яндексе — в канале Yandex for ML
Ключевые навыки:
- Пишете рабочий, понятный код и умеете доводить идеи до воспроизводимого результата
- Умеете профилировать код с помощью PyTorch Profiler, Nsight и т. д.
- Аккуратно ставите эксперименты, умеете сравнивать подходы и выделять реальные улучшения
- Понимаете, как работает распределённое обучение больших моделей, в частности FSDP
Дополнительные требования:
- На «ты» с Docker (контейнеризация, деплой)
- Обучали GAN
- Знаете современные LLM/VLM: архитектуры, трюки обучения
