Мы в GigaChat делаем core-технологию генеративной языковой модели: она пишет тексты, генерирует изображения, пишет код, отвечает на вопросы и ведёт диалоги.
Прошлой осенью мы выпустили сильную русскоязычную модель GigaChat MAX уровня GPT-4 (метрики - [в статье на Habr](https://habr.com/en/companies/sberdevices/articles/855368/)). Зимой [выложили в открытый доступ](https://habr.com/en/companies/sberdevices/articles/865996/) одну из наших MoE-моделей. И на этом не остановились - двигаемся дальше!
Сейчас у нас фокус в несколько направлений:
1\. Исследования и эксперименты
- стабилизация и развитие архитектур (новые виды attention, улучшение тестового стенда изменений)
- методы улучшения обучения (оптимизация, лоссы и режимы вроде FIM/MTP, балансировка MoE)
- скейлинг-законы (для гиперпараметров, качества и стоимости)
- постоянный разбор свежих статей и идей индустрии.
2\. Инфраструктура и параллельные тренировки
5-D параллелизм, ускорение мультимодальных и гигантских MoE-моделей на больших кластерах.
3\. Фреймворк распределённого обучения
Разработка GigaFSDP, эксперименты с FP8/mixed-precision, устойчивость и эффективность обучения на больших масштабах.
4\. Низкоуровневые оптимизации
Оптимизация операций на уровне CUDA/triton ядер, улучшение производительности NCCL, профилирование и устранение узких мест.
5\. Качество и метрики
Развитие оценки GigaChat: от международных олимпиадных задач до метрик, специфичных для русского языка.
Ищем NLP Engineer, с кем будем делать GigaChat умнее. Для экспериментов у нас кластер с большим числом A100/H100.
Обязанности:
- доводить качество на русском до уровня ChatGPT и выше
- придумывать и проверять идеи, которые дают практический выигрыш
- помогать решать задачи внутренних клиентов Сбера - с прицелом на внешних пользователей
- \*следить за индустрией: читать статьи, быстро проверять гипотезы, делиться результатами.
Требования:
- уверенный Python и PyTorch
- база по алгоритмам и математике (линейная алгебра, оптимизация, вероятности)
- опыт обучения DL-моделей: от «просто моделей» до больших
- теоретическое понимание алгоритмов распределенного обучения
- представление о текущем ландшафте LLM и трендах.
Плюсом будет:
- опыт с распределённым обучением (DDP/FSDP/параллелизмы), CUDA/NCCL/профилирование, MoE/FP8, мультимодальные модели, построение метрик качества.
Условия:
- удалённо по всей России
- возможность оформления в аккредитованную IT-компанию
- годовая премия по итогам работы
- регулярный пересмотр зарплат
- корпоративный спортзал и зоны отдыха
- более 400 программ СберУниверситета для роста
- программа адаптации и помощь руководителя на старте
- крупнейшее DS&AI community – более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы
- ДМС, льготное страхование для семьи, корпоративная пенсионная программа
- ипотека для сотрудников по дисконтной программе
- СберПрайм+ и скидки у партнёров
- бонус за рекомендации в команду.
Обязанности
###
Требования
###
Условия
###

