Ищем сильного Big Data разработчика, который будет проектировать и оптимизировать высоконагруженные системы обработки больших объёмов данных.
Что предстоит делать:
• Создавать и поддерживать ETL-пайплайны на Spark (DataFrame API, Scala), а также строить процессы обработки потоковых сообщений через Kafka. • Работать в полном стеке Big Data: экосистема Hadoop (включая Arenadata Hadoop), Hive и оркестрация задач в Airflow (YAML-конфигурации). • Заниматься оптимизацией: рефакторить код, ускорять SQL-запросы и Spark-приложения, находить и устранять уязвимости производительности. • Обеспечивать качество и надёжность решений: проводить code review, писать скрипты очистки и исправления данных, быстро решать инциденты. • Взаимодействовать с командой: готовить релизные артефакты, подробно документировать код и ставить задачи инженерам сопровождения.
Что мы ожидаем от вас:
• Уверенный опыт промышленной разработки на SQL, Spark, Hadoop и Hive. • Практическая работа с различными СУБД (Oracle, PostgreSQL, MySQL и др.). • Понимание архитектуры DWH / Data Lake и процессов CI/CD. • Уверенное владение Git. • Ответственность и умение быстро вникать в бизнес-потребности заказчика.
Будет существенным преимуществом:
• Глубокое знание внутренних механизмов Spark. • Опыт работы именно с Arenadata Hadoop. • Навыки проведения ПСИ и решения сложных дефектов в данных. • Уверенное владение Excel для аналитики.