Команда развивает ML-систему, детектирующую Out-of-stock ситуации и аномалии в продажах в near-real-time, которая выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов.

Задача: строить end-to-end пайплайны, собирающие данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищать, трансформировать и подготавливать их для моделей машинного обучения. От качества пайплайнов зависит точность прогноза и управленческие решения в закупках и логистике.

Обязанности:

  • Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)
  • Настраивать хранение и доступность данных в DWH
  • Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари
  • Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей
  • Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной

Требования / стек:

  • PySpark (2/3) / Spark SQL
  • Hadoop / Hive / Trino / S3 / ClickHouse / PostgreSQL / Greenplum
  • Airflow
  • Python 3
  • Docker, YARN / Kubernetes
  • pytest