Проект: Data Lake в крупный медтех.

Стек:

  • Hadoop (переход на S3 Ozone)
  • Hive
  • ClickHouse
  • PySpark
  • Kafka
  • Python
  • Apache Iceberg

Требования:

  • Опыт работы от 3 лет на аналогичной позиции или схожей
  • Практический опыт построения платформ данных с использованием Apache Iceberg на S3-совместимых хранилищах или Hadoop
  • Уверенное владение Python (включая PySpark)
  • Продвинутый опыт работы со PySpark (batch) с большими объёмами данных
  • Опыт проектирования и работы с таблицами в ClickHouse
  • Отличное знание SQL и опыт оптимизации под большие объёмы данных
  • Разработка, оптимизация и масштабирование ETL/ELT-процессов
  • Разработка и поддержка витрин данных для аналитики и бизнес-отчетности
  • Взаимодействие с аналитиками, специалистами Data Science и ML
  • Понимание принципов Data Lake / Data Lakehouse

Будет плюсом:

  • Опыт работы с Hive
  • Опыт работы с Apache Airflow
  • Понимание принципов MLOps
  • Опыт работы с Kafka
  • Опыт работы со Spark (streaming)
  • Опыт работы с кластером ClickHouse
  • Участие в проектировании и развитии архитектуры DWH и Data Lake
  • Понимание моделей данных (Star/Snowflake, Data Vault, Anchor Modeling)

Задачи:

  • Изучение сырых данных на источнике и в Storage
  • Тесное взаимодействие с командами Data Science и ML
  • Разбор и устранение сложных инцидентов производительности в ClickHouse и PySpark
  • Проектирование и построение витрин данных в ClickHouse
  • Разработка и модификация ETL/ELT-процессов для Data Mart
  • Проведение код-ревью

Условия:

  • Локация: РФ, РБ
  • Удаленно
  • Занятость: фулл тайм