Команда развивает ML-систему, детектирующую Out-of-stock ситуации и аномалии в продажах в near-real-time, которая выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов.
Задача: строить end-to-end пайплайны, собирающие данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищать, трансформировать и подготавливать их для моделей машинного обучения. От качества пайплайнов зависит точность прогноза и управленческие решения в закупках и логистике.
Обязанности:
- Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)
- Настраивать хранение и доступность данных в DWH
- Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари
- Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей
- Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной
Требования / стек:
- PySpark (2/3) / Spark SQL
- Hadoop / Hive / Trino / S3 / ClickHouse / PostgreSQL / Greenplum
- Airflow
- Python 3
- Docker, YARN / Kubernetes
- pytest