Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.

Грейд: Middle+ / Senior, коммерческий опыт от 3 лет.

Обязанности:

  • Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
  • Парсинг, валидация и трансформация XML-данных.
  • Построение слоёв raw → processed → curated (Parquet + S3).
  • Реализация нормализации, дедупликации и формирования "золотых" записей.
  • Тюнинг производительности и обеспечение стабильности в продакшене.
  • Подготовка решений к переносу в закрытый контур заказчика.
  • Взаимодействие с аналитиками, архитектором, DevOps и командой проекта.

Требования (MUST-HAVE):

  • Python (уверенное владение, понимание ООП, типизации, работы с памятью).
  • Опыт построения пайплайнов в продакшн (от 1–2 лет активной поддержки).
  • PySpark / pandas / аналоги; работа с большими объёмами данных.
  • Знание форматов Parquet, columnar storage (понимание partitioning, compression, schema evolution).
  • Опыт работы с хранилищами S3 или аналогами (MinIO, Yandex Object Storage, etc.).
  • Понимание архитектуры Data Lake / Lakehouse, multi-layer: raw → processed → curated.
  • Опыт обеспечения Data Quality: нормализация, дедупликация, формирование golden record / master data.
  • Опыт работы с PostgreSQL, Greenplum, ClickHouse (или аналогами); продвинутый SQL (оконные функции, CTE, оптимизация запросов).
  • Опыт работы с оркестраторами: Apache Airflow (или аналоги: Dagster, Prefect, Temporal).
  • Навыки DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git.
  • Опыт работы с облаками Yandex Cloud / AWS / GCP (любая из трёх, понимание IAM, сетей, compute/storage).
  • Опыт работы с XML (lxml, ElementTree или аналоги; опыт парсинга/валидации сложных структур).

Желательно (NICE-TO-HAVE):

  • Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов).
  • Trino / Presto (аналитические запросы поверх lakehouse).
  • Табличные форматы: Apache Iceberg, Delta Lake, Hudi.
  • Опыт работы в закрытых контурах / on-premise / air-gapped средах.
  • Понимание Data Mesh / Data Fabric концепций.
  • Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).