Обязанности:
Разработка, сопровождение и ревью ETL-процессов поставки данныхВам предстоит создавать конвейеры для извлечения, трансформации и загрузки данных из различных источников, настраивать их расписание и мониторинг. Важно регулярно проверять и улучшать код, быстро исправлять ошибки, а также тщательно документировать все преобразования и потоки данных — как собственные, так и коллег, обеспечивая соответствие стандартам качества и производительности. Проектирование структуры хранения данных в разных слоях хранилища
Вы будете определять оптимальные схемы организации данных для каждого слоя, учитывая требования к скорости запросов и объёму хранения. Нужно разрабатывать модели данных, настраивать партиционирование, индексацию и сжатие для повышения производительности, а также согласовывать структуры с командами аналитики и разработки и адаптировать схемы, если бизнес-процессы меняются. Выявление и оптимизация неэффективных участков в процессах поставки данных
Вы станете анализировать время выполнения ETL-задач, профилировать данные для обнаружения аномалий и избыточности, пересматривать алгоритмы трансформации для снижения нагрузки на систему. Погружение в данные прикладных бизнес-областей и становление в них экспертом
Вы будете детально изучать бизнес-процессы и ключевые метрики компании, разбираться в логике расчёта показателей и источниках их формирования. Больше об аналитике в Яндексе — в канале Yandex for Analytics
Ключевые навыки:
- Проектировали DWH (слои, модели хранения данных, ETL-процессы)
- Разрабатывали ETL-процессы на Apache Airflow или аналогах
- Настраивали поставки данных по API
- Разбираетесь в SQL на уровне эксперта
- Пишете на одном из языков высокого уровня (Python, Go, Java и т. д.)
- Понимаете устройство и архитектуру реляционных баз данных
- Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
Дополнительные требования:
- Пользовались хотя бы одной MPP-СУБД (Greenplum, ClickHouse, Vertica, Teradata и т. д.)
- Понимаете принципы работы технологий распределённой обработки данных (Hadoop, MapReduce и MPP)