Мы запускаем сервис-агрегатор, который будет формировать единый портрет пользователя WB.

Зачем это нужно? Сейчас данные о клиентах распределены по разным доменам и системам, из-за чего получение всей информации о пользователе занимает время и требует агрегации.

Мы хотим создать единый источник, который будет собирать, стандартизировать и предоставлять эти данные в удобном виде.

Вам предстоит:

  • Проектировать и реализовывать ETL-пайплайны на основе требований;
  • интегрировать данные из различных источников (Kafka, S3, Greenplum, Clickhouse БД, API) в DWH;
  • реализовывать преобразования данных с учётом бизнес-логики и требований к качеству;
  • обеспечивать надёжность пайплайнов;
  • разрабатывать DQ-проверки (валидность, полнота, консистентность) и встраивать их в пайплайны;
  • оптимизировать производительность обработки данных.
Вы нам подходите, если:
  • Уверенно владеете SQL (сложные запросы, оконные функции, оптимизация);
  • имеете практический опыт с Python для обработки данных;
  • имеете опыт автоматизации пайплайнов в Airflow;
  • понимаете архитектуру DWH / Data Lake;
  • владеете опытом построения и поддержки ETL-пайплайнов;
  • имеете опыт работы с БД ClickHouse и Kafka.