На долгий интересный проект требуется Data Engineer (Middle+ / Senior).
Локация: Москва. График: гибрид 3 дня в офисе, 2 дня дома. Срок проекта: до конца этого года с возможностью продления.
Контекст проекта: разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневая архитектура, строгие требования к качеству и производительности пайплайнов.
Основные задачи:
- Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
- Парсинг, валидация и трансформация XML-данных.
- Построение слоёв raw → processed → curated (Parquet + S3).
- Реализация нормализации, дедупликации и формирования «золотых» записей.
- Тюнинг производительности и обеспечение стабильности в продакшене.
- Подготовка решений к переносу в закрытый контур заказчика.
- Взаимодействие с аналитиками, архитектором, DevOps и командой.
Требования (MUST-HAVE):
- Python — уверенное владение, понимание ООП, типизации и работы с памятью.
- Опыт построения и поддержки ETL/ELT-пайплайнов в продакшне (1–2+ года поддержки, коммерческий опыт от ~3 лет).
- PySpark / pandas / аналоги; опыт работы с большими объёмами данных.
- Форматы Parquet и columnar storage — понимание partitioning, compression, schema evolution.
- Опыт работы с S3 или аналогами (MinIO, Yandex Object Storage и т.п.).
- Понимание архитектур Data Lake / Lakehouse, многоуровневые слои raw → processed → curated.
- Data Quality: нормализация, дедупликация, формирование golden record / master data.
- Базы данных и продвинутый SQL: PostgreSQL, Greenplum, ClickHouse; оконные функции, CTE, оптимизация запросов.
- Оркестрация: Apache Airflow (или аналоги: Dagster, Prefect, Temporal).
- DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git.
- Облака: Yandex Cloud / AWS / GCP — понимание IAM, сетей, compute/storage.
- Опыт парсинга/валидации XML: lxml, ElementTree или аналоги.
Плюсы (NICE-TO-HAVE):
- Глубокая оптимизация Apache Spark (shuffle, partitioning, broadcast joins, динамическое выделение ресурсов).
- Trino / Presto для аналитики поверх lakehouse.
- Табличные форматы: Apache Iceberg, Delta Lake, Hudi.
- Опыт работы в закрытых контурах / on-premise / air-gapped средах.
- Знание концепций Data Mesh / Data Fabric.
- Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).