Обязанности:
Разработка и поддержка ETL-процессовВы будете проектировать и поддерживать ETL-пайплайны для обработки данных — от источников до дашбордов, работая в составе V-team своего домена данных. Повышение качества и стабильности данных
Вам предстоит обеспечивать стабильность и производительность витрин и дашбордов, разрабатывать механизмы контроля качества данных и оптимизировать существующие процессы обработки. Поддержка инфраструктуры данных
Вы будете поддерживать работу ключевых компонентов платформы (ClickHouse, Greenplum, YTsaurus, ETL-сервисы), взаимодействуя с инфраструктурными командами. Техническая поддержка аналитиков
Вы станете основным контактным лицом для аналитиков по техническим вопросам работы с данными и инструментами платформы.
Ключевые навыки:
- Отлично знаете Python
- Работаете с Greenplum, Vertica, ClickHouse или любыми другими MPP-СУБД
- Работаете с большими объёмами данных в Hadoop (HDFS, Spark, Hive), YTsaurus или аналогичных экосистемах
- Понимаете принципы проектирования хранилищ данных, ETL-фреймворков, а также систем мониторинга состояния хранилища
- Умеете оптимизировать запросы и оценивать вычислительную нагрузку
Дополнительные требования:
- Создавали сложные высоконагруженные ETL- и ELT-пайплайны (знаете code-driven ETL Luigi, Airflow)
- Разрабатывали процессы обработки сложных событий (CEP) почти в реальном времени (Kafka Streams, Spark, Flink и пр.)
- Работали с инструментами стека Python для Data Science (Jupyter, pandas, SciPy, Matplotlib, Bokeh и пр.)
- Разрабатывали проверки качества данных, мониторинга стабильности и использования данных
- Понимаете ценность данных для принятия решений бизнесом
- Коммитите в публичные репозитории или пишете статьи с примерами работ