Наша команда разрабатывает технологии для персонализации в Алисе. Голосовому помощнику это нужно, чтобы правильно рекомендовать контент пользователю, взаимодействующему с колонкой. Один из наших наиболее амбициозных проектов — идентификация пользователей по голосу, что помогает совершенствовать музыкальные рекомендации и подбирать уникальные ответы Алисы для каждого члена семьи. Мы работаем с реальным аудио (far field, шум, реверберации), где критичны низкая задержка и высокое качество. Миллионы пользователей ежедневно ощущают результат нашей работы в виде более точных рекомендаций и удобного взаимодействия с Алисой.

Обязанности:

Улучшение качества голосовой персонализации Вы будете разрабатывать и улучшать модели персонализации, повышая их точность и скорость, а также запускать и автоматизировать обучение моделей. Нужно будет проводить эксперименты и интерпретировать результаты (офлайн-метрики, онлайн-тесты, A/B), управлять полным циклом данных (сбор из логов, очистка/дедупликация, таргетные аугментации). Контроль за качеством и сценариями Вам предстоит исследовать поведение моделей в ключевых пользовательских сценариях (семьи, дети/взрослые, шумные комнаты, far field), строить метрики/дашборды и формулировать продуктовые рекомендации. Оптимизация моделей для работы на embedded-устройствах Нужно готовить модели к релизу (TFLite/ONNX), применять квантизацию и другие методы ускорения, контролировать задержку и качество на проде. Больше об ML в Яндексе — в канале Yandex for ML

Ключевые навыки:

  • Обучали нейросетевые модели и внедряли DL-решения в продакшен
  • Уверенно ориентируетесь в DL и быстро разбираетесь в новых методах
  • Умеете программировать на Python и работали с PyTorch
  • Хорошо знаете классические структуры данных и алгоритмы
  • Умеете выдвигать гипотезы, строить эксперименты и делать корректные выводы
  • Читаете статьи об ML, следите за развитием этой области

Дополнительные требования:

  • Работали с задачами из смежных областей: CV, NLP, Speech (ASR, TTS, VAD)
  • Имеете опыт работы с моделями для аудио
  • Оптимизировали инференс на устройствах (C++, квантизация, дистилляция)
  • Работали с большими датасетами и строили пайплайны подготовки данных
  • Участвовали в ML-соревнованиях или в open-source-проектах