Data Engineer в направлении «Премиальные решения».

Обязанности:

Разработка, оптимизация и сопровождение масштабных ETL/ELT pipeline-процессов на Hadoop и Greenplum для обработки больших данных;
Интеграция и объединение данных из множества внутренних и внешних источников, включая потоки данных (Kafka), в единое хранилище (Hadoop);
Проектирование и развитие корпоративного хранилища данных на базе Greenplum и Hadoop: создание витрин данных для аналитики и отчётности, оптимизация таблиц и запросов;
Автоматизация и оркестрация процессов обработки данных;
Обеспечение надежности, отказоустойчивости и качества данных: мониторинг производительности, выявление и устранение узких мест;
Взаимодействие с бизнес- и ИТ-командами для уточнения требований и реализации проектов.

Требования:

Опыт работы в роли Data Engineer (или аналогичной) от 2 лет;
Уверенное владение SQL: написание сложных запросов, оптимизация производительности, проектирование баз данных и хранилищ;
Практическое применение технологий Big Data: Hadoop (HDFS, YARN), Apache Spark (написание и запуск jobs), а также Hive, Impala или Greenplum;
Опыт использования систем оркестрации и планировщиков задач (Apache Airflow, Oozie или аналогичные) для построения ETL/ELT процессов;
Знание инструментов контейнеризации и оркестрации (Docker, Kubernetes) и опыт работы с потоковыми данными (Kafka или аналогичные платформы);
Понимание принципов распределённых вычислений, высоконагруженных систем и обработки больших объёмов данных;
Английский язык на уровне, достаточном для чтения технической документации.

Data Engineer

Job description