Команда развивает ML-систему, детектирующую Out-of-stock ситуации и аномалии в продажах в near-real-time, которая выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов.

Задача: строить end-to-end пайплайны, собирающие данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищать, трансформировать и подготавливать их для моделей машинного обучения. От качества пайплайнов зависит точность прогноза и управленческие решения в закупках и логистике.

Обязанности:

Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)
Настраивать хранение и доступность данных в DWH
Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари
Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей
Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной

Требования / стек:

PySpark (2/3) / Spark SQL
Hadoop / Hive / Trino / S3 / ClickHouse / PostgreSQL / Greenplum
Airflow
Python 3
Docker, YARN / Kubernetes
pytest

Data Engineer (Python + Spark)

Job description

Match