Проект: Лемана Про Ритейл. Команда данных и аналитики по сотрудникам строит слой данных для ответов на бизнес-вопросы о сотрудниках и их развитии.
Условия: любая локация, удалённо, фулл тайм.
Требования:
- Опыт разработки ETL/ELT пайплайнов
- Работа с API (REST: пагинация, ретраи, обработка ошибок)
- Обработка больших объёмов данных
- Продвинутый SQL: сложные join’ы, оконные функции, оптимизация запросов, понимание планов выполнения
- Практический опыт в проде с Greenplum (MPP, распределение данных, оптимизация)
- Опыт работы с ClickHouse (построение витрин, большие таблицы)
- Знание MS SQL Server
- Опыт работы с Kafka (consumer/producer, семантика доставки и обработки сообщений)
- Работа с S3-совместимыми хранилищами (чтение/запись, организация данных, партиционирование)
- Желательно: Trino, опыт построения DWH (staging / dds / marts), понимание data lineage и контроля качества данных, опыт orchestration (Airflow или аналоги)
- Самостоятельность и ответственность за результат
Задачи:
- Разработка и поддержка пайплайнов загрузки и трансформации HR-данных
- Интеграция источников: API, Kafka, БД, файловые хранилища
- Построение витрин и обеспечение их консистентности
- Оптимизация производительности и стоимости обработки данных
- Обеспечение стабильности: обработка сбоев, ретраи, мониторинг