Обязанности:
Строить и оптимизировать пайплайны обработки данныхВы будете развивать набор взаимосвязанных ETL-процессов и участвовать в работе на всех стадиях обработки данных, начиная с загрузки из источников и заканчивая подготовкой витрин и конечных выгрузок для внутренних сервисов. Важно проектировать эти процессы с продуманной архитектурой, где производительность и устойчивость — базовые требования. Обеспечивать надёжность и качество дата-процессов
Вам предстоит настраивать мониторинг, проверки качества и алертинг, контролировать задержки и полноту поставки данных, оперативно разбирать инциденты и устранять их причины, а не только последствия. Развивать аналитический слой данных: витрины, дашборды, метрики
Надо будет создавать и развивать витрины и метрики для продуктовых задач. Мы работаем в связке с аналитиками, уточняем требования, согласуем логику расчётов и проверяем корректность результатов. Важно разбираться в предметной области и понимать смысл данных, а при проблемах с событиями и логированием — взаимодействовать с командами разработки. Развивать внутренние дата-инструменты
У нас есть внутренний набор библиотек для работы с данными и оркестрации регулярных запусков дата-процессов. Вы будете улучшать существующие библиотеки и создавать новые утилиты, которые позволят упростить и ускорить работу нашей команды.
Больше об аналитике в Яндексе — в канале Yandex for Analytics
Ключевые навыки:
- Отлично знаете Python и умеете разрабатывать чистый и эффективный код
- Отлично владеете SQL
- Знакомы с парадигмой MapReduce
Дополнительные требования:
- Создавали сложные высоконагруженные ETL- и ELT-процессы
- Работали с инструментами оркестрации
- Участвовали в проектировании хранилищ данных
