Мы — команда GigaChat Data, готовим данные для обучения базовых моделей GigaChat во всех модальностях (Text, Vision, Audio, Video): SFT, RLHF, навыки, безопасность и продуктовые сценарии.
Ищем специалистов в данные для работы с мультимодальными моделями: изображение, видео, аудио и их комбинации.
Направления задач
- Мультимодальные датасеты. Сбор и подготовка данных для задач с изображениями, аудио и видео: диалоги, инструкции, пользовательские сценарии.
- Пайплайны данных. Построение процессов сбора, очистки, фильтрации и разметки данных из production и open-source источников.
- Разметка и схемы аннотации. Проектирование разметки для мультимодальных задач: понимание изображений и видео, вопросы-ответы, суммаризация, сложные пользовательские запросы.
- Метрики качества и бенчмарки. Подбор и расчет метрик, разработка тестовых наборов и бенчмарков для оценки качества моделей.
- Анализ качества моделей через данные. Поиск проблемных сценариев, деградаций и точек роста на основе данных и логов.
_Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика вам на почту и в чат на платформе HeadHunter придет приглашение пройти первичное интервью с ГигаРекрутером в Telegram. Диалог займёт примерно 10 минут. Его задача — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры. ГигаРекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным!_
Обязанности
- подготовка датасетов для обучения и тестирования моделей
- разработка и поддержка data pipeline’ов
- контроль качества данных и разметки
- анализ метрик и результатов моделей
- работа с большими объемами мультимодальных данных
Требования
- уверенный Python (алгоритмы, структуры данных, async)
- опыт работы с данными в ML-задачах
- понимание метрик качества моделей
- базовая статистика
Будет преимуществом
- опыт с image / video / audio данными
- опыт с LLM или мультимодальными моделями
- опыт построения data pipeline’ов
- опыт с разметкой и краудсорсингом
Условия
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность быть соавтором НИРов и статей для международных конференций
- возможность выбрать удобный формат работы: гибрид или офис
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.

