На долгий интересный проект требуется Data Engineer (Middle+ / Senior).

Локация: Москва. График: гибрид 3 дня в офисе, 2 дня дома. Срок проекта: до конца этого года с возможностью продления.

Контекст проекта: разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневая архитектура, строгие требования к качеству и производительности пайплайнов.

Основные задачи:

Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
Парсинг, валидация и трансформация XML-данных.
Построение слоёв raw → processed → curated (Parquet + S3).
Реализация нормализации, дедупликации и формирования «золотых» записей.
Тюнинг производительности и обеспечение стабильности в продакшене.
Подготовка решений к переносу в закрытый контур заказчика.
Взаимодействие с аналитиками, архитектором, DevOps и командой.

Требования (MUST-HAVE):

Python — уверенное владение, понимание ООП, типизации и работы с памятью.
Опыт построения и поддержки ETL/ELT-пайплайнов в продакшне (1–2+ года поддержки, коммерческий опыт от ~3 лет).
PySpark / pandas / аналоги; опыт работы с большими объёмами данных.
Форматы Parquet и columnar storage — понимание partitioning, compression, schema evolution.
Опыт работы с S3 или аналогами (MinIO, Yandex Object Storage и т.п.).
Понимание архитектур Data Lake / Lakehouse, многоуровневые слои raw → processed → curated.
Data Quality: нормализация, дедупликация, формирование golden record / master data.
Базы данных и продвинутый SQL: PostgreSQL, Greenplum, ClickHouse; оконные функции, CTE, оптимизация запросов.
Оркестрация: Apache Airflow (или аналоги: Dagster, Prefect, Temporal).
DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git.
Облака: Yandex Cloud / AWS / GCP — понимание IAM, сетей, compute/storage.
Опыт парсинга/валидации XML: lxml, ElementTree или аналоги.

Плюсы (NICE-TO-HAVE):

Глубокая оптимизация Apache Spark (shuffle, partitioning, broadcast joins, динамическое выделение ресурсов).
Trino / Presto для аналитики поверх lakehouse.
Табличные форматы: Apache Iceberg, Delta Lake, Hudi.
Опыт работы в закрытых контурах / on-premise / air-gapped средах.
Знание концепций Data Mesh / Data Fabric.
Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).

Data Engineer

Job description

Match