Проект: Data Lake в крупный медтех.
Стек:
- Hadoop (переход на S3 Ozone)
- Hive
- ClickHouse
- PySpark
- Kafka
- Python
- Apache Iceberg
Требования:
- Опыт работы от 3 лет на аналогичной позиции или схожей
- Практический опыт построения платформ данных с использованием Apache Iceberg на S3-совместимых хранилищах или Hadoop
- Уверенное владение Python (включая PySpark)
- Продвинутый опыт работы со PySpark (batch) с большими объёмами данных
- Опыт проектирования и работы с таблицами в ClickHouse
- Отличное знание SQL и опыт оптимизации под большие объёмы данных
- Разработка, оптимизация и масштабирование ETL/ELT-процессов
- Разработка и поддержка витрин данных для аналитики и бизнес-отчетности
- Взаимодействие с аналитиками, специалистами Data Science и ML
- Понимание принципов Data Lake / Data Lakehouse
Будет плюсом:
- Опыт работы с Hive
- Опыт работы с Apache Airflow
- Понимание принципов MLOps
- Опыт работы с Kafka
- Опыт работы со Spark (streaming)
- Опыт работы с кластером ClickHouse
- Участие в проектировании и развитии архитектуры DWH и Data Lake
- Понимание моделей данных (Star/Snowflake, Data Vault, Anchor Modeling)
Задачи:
- Изучение сырых данных на источнике и в Storage
- Тесное взаимодействие с командами Data Science и ML
- Разбор и устранение сложных инцидентов производительности в ClickHouse и PySpark
- Проектирование и построение витрин данных в ClickHouse
- Разработка и модификация ETL/ELT-процессов для Data Mart
- Проведение код-ревью
Условия:
- Локация: РФ, РБ
- Удаленно
- Занятость: фулл тайм