Проект: Сбербанк. Локация: Москва. Длительность: долгосрочный проект.

Условия: гибрид, 2-3 дня работы из офиса на ул. Вавилова. Варианты трудоустройства: ТК РФ, ГПХ.

Требования:

Java (Scala) под Spark — обязательно
Опыт работы с Apache Spark от 1 года
Опыт работы с СУБД (Greenplum, ClickHouse, PostgreSQL) от 2 лет
Опыт работы с Hadoop (HDFS, Hive)
Опыт проектирования и разработки потоков данных, алгоритмов загрузки и обработки данных
Опыт оптимизации ETL-пайплайнов и SQL-кода
Продвинутые знания SQL
Понимание принципов работы распределенных систем
Готовность осваивать Java для использования Spark

Будет плюсом:

Задачи:

Разработка ETL на Apache Spark (Java стек)
Разработка ETL-пайплайнов (Apache Spark, HDFS (parquets), Hive, Greenplum, ClickHouse)
Разработка витрин данных в Greenplum и ClickHouse
Оркестрация ETL-процессов
Оптимизация ETL-процессов (батчинг, ретраи, SLA-контроль)
Взаимодействие с BI-разработчиками и DevOps для своевременной доставки данных в Superset

Data аналитик

Job description