Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.
Грейд: Middle+ / Senior, коммерческий опыт от 3 лет.
Обязанности:
- Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
- Парсинг, валидация и трансформация XML-данных.
- Построение слоёв raw → processed → curated (Parquet + S3).
- Реализация нормализации, дедупликации и формирования "золотых" записей.
- Тюнинг производительности и обеспечение стабильности в продакшене.
- Подготовка решений к переносу в закрытый контур заказчика.
- Взаимодействие с аналитиками, архитектором, DevOps и командой проекта.
Требования (MUST-HAVE):
- Python (уверенное владение, понимание ООП, типизации, работы с памятью).
- Опыт построения пайплайнов в продакшн (от 1–2 лет активной поддержки).
- PySpark / pandas / аналоги; работа с большими объёмами данных.
- Знание форматов Parquet, columnar storage (понимание partitioning, compression, schema evolution).
- Опыт работы с хранилищами S3 или аналогами (MinIO, Yandex Object Storage, etc.).
- Понимание архитектуры Data Lake / Lakehouse, multi-layer: raw → processed → curated.
- Опыт обеспечения Data Quality: нормализация, дедупликация, формирование golden record / master data.
- Опыт работы с PostgreSQL, Greenplum, ClickHouse (или аналогами); продвинутый SQL (оконные функции, CTE, оптимизация запросов).
- Опыт работы с оркестраторами: Apache Airflow (или аналоги: Dagster, Prefect, Temporal).
- Навыки DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git.
- Опыт работы с облаками Yandex Cloud / AWS / GCP (любая из трёх, понимание IAM, сетей, compute/storage).
- Опыт работы с XML (lxml, ElementTree или аналоги; опыт парсинга/валидации сложных структур).
Желательно (NICE-TO-HAVE):
- Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов).
- Trino / Presto (аналитические запросы поверх lakehouse).
- Табличные форматы: Apache Iceberg, Delta Lake, Hudi.
- Опыт работы в закрытых контурах / on-premise / air-gapped средах.
- Понимание Data Mesh / Data Fabric концепций.
- Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).