На долгий интересный проект требуется Data Engineer (Middle+ / Senior).

Локация: Москва. График: гибрид 3 дня в офисе, 2 дня дома. Срок проекта: до конца этого года с возможностью продления.

Контекст проекта: разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневая архитектура, строгие требования к качеству и производительности пайплайнов.

Основные задачи:

  • Разработка и оптимизация ETL/ELT-пайплайнов под большие объёмы.
  • Парсинг, валидация и трансформация XML-данных.
  • Построение слоёв raw → processed → curated (Parquet + S3).
  • Реализация нормализации, дедупликации и формирования «золотых» записей.
  • Тюнинг производительности и обеспечение стабильности в продакшене.
  • Подготовка решений к переносу в закрытый контур заказчика.
  • Взаимодействие с аналитиками, архитектором, DevOps и командой.

Требования (MUST-HAVE):

  • Python — уверенное владение, понимание ООП, типизации и работы с памятью.
  • Опыт построения и поддержки ETL/ELT-пайплайнов в продакшне (1–2+ года поддержки, коммерческий опыт от ~3 лет).
  • PySpark / pandas / аналоги; опыт работы с большими объёмами данных.
  • Форматы Parquet и columnar storage — понимание partitioning, compression, schema evolution.
  • Опыт работы с S3 или аналогами (MinIO, Yandex Object Storage и т.п.).
  • Понимание архитектур Data Lake / Lakehouse, многоуровневые слои raw → processed → curated.
  • Data Quality: нормализация, дедупликация, формирование golden record / master data.
  • Базы данных и продвинутый SQL: PostgreSQL, Greenplum, ClickHouse; оконные функции, CTE, оптимизация запросов.
  • Оркестрация: Apache Airflow (или аналоги: Dagster, Prefect, Temporal).
  • DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git.
  • Облака: Yandex Cloud / AWS / GCP — понимание IAM, сетей, compute/storage.
  • Опыт парсинга/валидации XML: lxml, ElementTree или аналоги.

Плюсы (NICE-TO-HAVE):

  • Глубокая оптимизация Apache Spark (shuffle, partitioning, broadcast joins, динамическое выделение ресурсов).
  • Trino / Presto для аналитики поверх lakehouse.
  • Табличные форматы: Apache Iceberg, Delta Lake, Hudi.
  • Опыт работы в закрытых контурах / on-premise / air-gapped средах.
  • Знание концепций Data Mesh / Data Fabric.
  • Опыт написания unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).