О проекте
Мы строим DataHub — централизованную платформу управления данными экосистемы Centras Group. Это «сердце» нашей IT-инфраструктуры, связующее звено между 20+ источниками (Web, Mobile, CRM, ERP) и потребителями данных (CDP, MDM, BI).
Наша глобальная цель — создать Single Customer View (единый профиль клиента), обеспечив бизнес качественными данными для персонализации маркетинга и принятия решений.
Ключевая задача (The Challenge)
Вам предстоит выстроить архитектуру данных. Главный вызов — реализовать механизмы идентификации и склейки профилей клиентов (Identity Resolution). Нужно превратить разрозненные потоки данных (анонимные cookie, user_id, транзакции в ERP) в «золотую запись» клиента, чтобы мы могли узнать своего пользователя на любом этапе взаимодействия — от первого клика на сайте до покупки.
Чем предстоит заниматься:
- Архитектура и проектирование: Спроектировать структуру хранилища данных (DWH) и архитектуру баз данных DataHub.
- ETL и Интеграция: Настройка пайплайнов сбора данных из разнородных источников (Logs API, CRM, ERP, внешние API). Разработка и поддержка DAG-ов в Apache Airflow.
- Identity Resolution: Реализация алгоритмов склейки профилей (связка centr_cid, user_id, contact_hash) для обеспечения кросс-платформенного трекинга.
- Качество данных (Data Quality): Внедрение процессов очистки, дедупликации и обогащения данных перед их передачей в MDM и CDP системы.
- Аналитическая база: Подготовка витрин данных для BI-систем и создание фундамента для будущей ML-аналитики.
- Взаимодействие с командой: Постановка технических заданий бэкенд-разработчикам (например, по прокидыванию ID в события) и тесное общение с бизнес-заказчиками.
Наш стек (текущий и планируемый):
- Orchestration: Apache Airflow.
- DB/DWH: PostgreSQL, ClickHouse.
- Languages: Python (pandas, pyspark, requests), SQL.
- Tracking & Sources: Yandex Metrica (Logs API), GA4, внутренние CRM/ERP системы.
Мы ждем от вас:
- Знание SQL: Умение писать запросы, проектировать схемы БД (Star/Snowflake schema), понимание индексов и оптимизации производительности.
- Python: Опыт написания ETL-скриптов, работа с API, парсинг данных (JSON/XML).
- Опыт с оркестраторами: Понимание принципов работы Apache Airflow (или Prefect/Dagster).
- Понимание природы веб-данных: понимание, как работают cookies, user-agent, client_id, сессии и как связать веб-трекинг с бэкенд-событиями.
Условия:
- Оформление согласно трудовому законодательству РК
- Скидки на медицинское страхование в собственной клинике
- Обучение и профессиональное развитие в iHub
- Участие в конференциях (внутренние и внешние)
- Корпоративная культура: тимбилдинги (летние и зимние), различные спортивные мероприятия, интеллектуальные игры (Quizы)
- Предоставление выходного дня (адм. дни - в зависимости от стажа работы в компании) без удержания заработной платы
- Отпуск 28 календарных дней
- Начисление баллов – Сенткоинов, возможность заработать внутреннюю валюту и потратить её на разные бонусы в компании.