Основные задачи
  • Взаимодействие с владельцами данных по вопросам сбора и качества данных, проведение системного анализа источников
  • Разработка и поддержка пайплайнов загрузки данных на Python с использованием DAG’ов Airflow
  • Разработка dbt-моделей по ключевым бизнес-процессам по схеме «звезда», создание витрин данных
  • Автоматизация процессов, настройка CI/CD пайплайнов, мониторинга и алёртинга
  • Участие в развитии процессов Data Quality, Data Catalog и Data Lineage, а также инфраструктуры платформы данных
  • Взаимодействие с BI разработчиками и аналитиками
Мы ожидаем
  • Опыт работы с реляционными (PostgreSQL) и аналитическими (ClickHouse) базами данных
  • Опыт разработки на Python, особенно в сфере написания ELT пайплайнов и разработки DAG’ов Airflow
  • Уверенное знание SQL и опыт оптимизации запросов
  • Понимание принципов построения DWH
  • Базовые знания Linux, Docker, Git, CI/CD
Будет плюсом
  • Опыт работы с Kafka
  • Опыт работы с dbt
  • Опыт настройки и поддержки CDC
  • Опыт работы с S3
  • Опыт работы с облачной инфраструктурой
  • Опыт работы с Data Lake архитектурой (использование Trino, Spark, форматов Parquet, Iceberg и др.)
  • Опыт моделирования данных по схеме «звезда» в рамках DWH