О проекте

Мы строим DataHub — централизованную платформу управления данными экосистемы Centras Group. Это «сердце» нашей IT-инфраструктуры, связующее звено между 20+ источниками (Web, Mobile, CRM, ERP) и потребителями данных (CDP, MDM, BI).

Наша глобальная цель — создать Single Customer View (единый профиль клиента), обеспечив бизнес качественными данными для персонализации маркетинга и принятия решений.

Ключевая задача (The Challenge)

Вам предстоит выстроить архитектуру данных. Главный вызов — реализовать механизмы идентификации и склейки профилей клиентов (Identity Resolution). Нужно превратить разрозненные потоки данных (анонимные cookie, user_id, транзакции в ERP) в «золотую запись» клиента, чтобы мы могли узнать своего пользователя на любом этапе взаимодействия — от первого клика на сайте до покупки.

Чем предстоит заниматься:

  • Архитектура и проектирование: Спроектировать структуру хранилища данных (DWH) и архитектуру баз данных DataHub.
  • ETL и Интеграция: Настройка пайплайнов сбора данных из разнородных источников (Logs API, CRM, ERP, внешние API). Разработка и поддержка DAG-ов в Apache Airflow.
  • Identity Resolution: Реализация алгоритмов склейки профилей (связка centr_cid, user_id, contact_hash) для обеспечения кросс-платформенного трекинга.
  • Качество данных (Data Quality): Внедрение процессов очистки, дедупликации и обогащения данных перед их передачей в MDM и CDP системы.
  • Аналитическая база: Подготовка витрин данных для BI-систем и создание фундамента для будущей ML-аналитики.
  • Взаимодействие с командой: Постановка технических заданий бэкенд-разработчикам (например, по прокидыванию ID в события) и тесное общение с бизнес-заказчиками.

Наш стек (текущий и планируемый):

  • Orchestration: Apache Airflow.
  • DB/DWH: PostgreSQL, ClickHouse.
  • Languages: Python (pandas, pyspark, requests), SQL.
  • Tracking & Sources: Yandex Metrica (Logs API), GA4, внутренние CRM/ERP системы.

Мы ждем от вас:

  • Знание SQL: Умение писать запросы, проектировать схемы БД (Star/Snowflake schema), понимание индексов и оптимизации производительности.
  • Python: Опыт написания ETL-скриптов, работа с API, парсинг данных (JSON/XML).
  • Опыт с оркестраторами: Понимание принципов работы Apache Airflow (или Prefect/Dagster).
  • Понимание природы веб-данных: понимание, как работают cookies, user-agent, client_id, сессии и как связать веб-трекинг с бэкенд-событиями.

Условия:

  • Оформление согласно трудовому законодательству РК
  • Скидки на медицинское страхование в собственной клинике
  • Обучение и профессиональное развитие в iHub
  • Участие в конференциях (внутренние и внешние)
  • Корпоративная культура: тимбилдинги (летние и зимние), различные спортивные мероприятия, интеллектуальные игры (Quizы)
  • Предоставление выходного дня (адм. дни - в зависимости от стажа работы в компании) без удержания заработной платы
  • Отпуск 28 календарных дней
  • Начисление баллов – Сенткоинов, возможность заработать внутреннюю валюту и потратить её на разные бонусы в компании.