Ищем Middle AI Engineer для создания нативных омнимодальных архитектур — новых способов кодирования и совместного обучения в доменах изображений, аудио, видео и т.д.

Обязанности

  • Разработка принципиально новых мультимодальных представлений и кодирования информации (vision, audio, video, text)
  • Создание универсальных энкодеров и shared latent spaces
  • Vision-Language-Action (VLA) архитектуры и стрим взаимодействия с роботами
  • Исследование end-to-end омнимодальных моделей и обучение на масштабных мультимодальных датасетах

Требования

  • Отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc
  • Глубокое понимание representation learning и multimodal learning
  • Опыт с vision, audio и video моделями
  • Понимание трансформеров, contrastive learning, joint embeddings
  • Умение быстро разбирать и воспроизводить идеи из научных статей

**Будет плюсом**

  • Опыт с VLA / Embodied AI / Robotics
  • Знание self-supervised и multimodal pretraining подходов
  • Опыт работы с streaming video/audio
  • Публикации, open-source вклад или исследовательский опыт

Условия

  • комфортный современный офис рядом с м. Кутузовская
  • гибрид или удаленка
  • годовая премия
  • корпоративный спортзал и зоны отдыха
  • расширенный ДМС + страхование для семьи
  • ипотека для сотрудников выгоднее (-1/3 от текущей процентной ставки)
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.