Разрабатываем подходы к фильтрации, оцениваем состав больших датасетов и масштабируем пайплайны для обработки и фильтрации огромных мультимодальных датасетов (текст-видео-аудио триплеты, инструкции для редактирования), критически важных для обучения наших моделей.

Обязанности

создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
масштабирование пайплайнов на распределенных кластерах
опыт руководства (3-4 человека в подчинении).

Требования

экспертиза в построении data pipelines (Python, SQL)
опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
опыт работы с распределенными вычислениями и облачными хранилищами (S3, GCS)
знание практик data versioning (DVC) и управления метаданными
опыт с синтетической генерацией данных, active learning.

Условия

самое крупное DS&AI сообщество — более 600 специалистов банка
дайджест о последних разработках в области DS&AI и отчёты с крупных мировых конференций
гибридный или офисный формат работы
современный офис у метро Кутузовская
ежегодный пересмотр зарплаты и годовая премия
корпоративный спортзал и зоны отдыха
более 400 образовательных программ СберУниверситета
расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
специальные условия ипотеки под ставку до 7%
бесплатная подписка СберПрайм+ и скидки на товары партнёров
вознаграждение за рекомендации друзей.

Team Lead Data Engineer (Large-Scale Multimodal Dataset Pipelines)

Описание вакансии

Обязанности

Требования

Условия