Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.

Грейд: Middle+ / Senior, коммерческий опыт от 3 лет.

Обязанности:

Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
Парсинг, валидация и трансформация XML-данных.
Построение слоёв raw → processed → curated (Parquet + S3).
Реализация нормализации, дедупликации и формирования "золотых" записей.
Тюнинг производительности и обеспечение стабильности в продакшене.
Подготовка решений к переносу в закрытый контур заказчика.
Взаимодействие с аналитиками, архитектором, DevOps и командой проекта.

Требования (MUST-HAVE):

Python (уверенное владение, понимание ООП, типизации, работы с памятью).
Опыт построения пайплайнов в продакшн (от 1–2 лет активной поддержки).
PySpark / pandas / аналоги; работа с большими объёмами данных.
Знание форматов Parquet, columnar storage (понимание partitioning, compression, schema evolution).
Опыт работы с хранилищами S3 или аналогами (MinIO, Yandex Object Storage, etc.).
Понимание архитектуры Data Lake / Lakehouse, multi-layer: raw → processed → curated.
Опыт обеспечения Data Quality: нормализация, дедупликация, формирование golden record / master data.
Опыт работы с PostgreSQL, Greenplum, ClickHouse (или аналогами); продвинутый SQL (оконные функции, CTE, оптимизация запросов).
Опыт работы с оркестраторами: Apache Airflow (или аналоги: Dagster, Prefect, Temporal).
Навыки DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git.
Опыт работы с облаками Yandex Cloud / AWS / GCP (любая из трёх, понимание IAM, сетей, compute/storage).
Опыт работы с XML (lxml, ElementTree или аналоги; опыт парсинга/валидации сложных структур).

Желательно (NICE-TO-HAVE):

Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов).
Trino / Presto (аналитические запросы поверх lakehouse).
Табличные форматы: Apache Iceberg, Delta Lake, Hudi.
Опыт работы в закрытых контурах / on-premise / air-gapped средах.
Понимание Data Mesh / Data Fabric концепций.
Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).

Data Engineer (Middle+ / Senior)

Описание вакансии