Обязанности:
Разработка, масштабирование и миграция дата-платформыВам предстоит проектировать и развивать платформу на базе S3, Greenplum, Trino, Apache Airflow, Apache Spark, Yandex Cloud, готовить её к кратному росту объёмов данных, обеспечивать миграцию с Greenplum на Trino/S3 для снижения затрат и ускорения доступа к данным. Интеграция источников и управление загрузкой данных
Вы будете строить процессы выгрузки из реляционных СУБД, NoSQL, файловых хранилищ и Kafka, реализовывать стратегии загрузки (полную или инкрементальную с CDC, пакетную или потоковую обработку), внедрять Spark Streaming для обновления данных в режиме near-real-time, работать со снепшотами, инкрементами, аудит-таблицами и CDC. Обеспечение надёжности и эффективности платформы
Вы будете обеспечивать отказоустойчивость, безопасность, производительность и масштабируемость сервисов и дата-пайплайнов в режиме 24/7, оптимизировать стоимость обработки данных и использования ресурсов, развёртывать инфраструктуру и проводить её мониторинг через CI/CD-пайплайны, сокращать объём ручных операций, создавать новые интеграции. Наблюдаемость, контроль качества и развитие инструментов
Предстоит создавать observability-платформу для DWH, которая поможет обеспечить мониторинг статусов сборки, качество данных, анализ Data lineage, логирование. Вы будете заниматься версионированием данных, тестировать пайплайны, развивать внутренние фреймворки и low-code-решения для загрузки и трансформации данных. Безопасность и организация разработки
Нужно будет обеспечить автоматическую выдачу и контроль прав доступа к инфраструктуре и данным, проводить аудит действий пользователей, создавать изолированные среды разработки, тестирования и предпрода с автоматизированным тестированием, выстраивать среду безопасной разработки и повышать надёжность решений. Больше о бэкенде в Яндексе — в канале Yandex for Backend
Ключевые навыки:
- Занимались коммерческой разработкой от четырёх лет
- Строили процессы, перечисленные в ключевых задачах
- Оптимизировали сложные аналитические запросы, работали с планами выполнения
- Проектировали схемы данных, занимались партиционированием, шардированием, создавали эффективные индексы
- Работали с различными типами СУБД: реляционными (PostgreSQL, Oracle), NoSQL (MongoDB), MPP-системами (Greenplum)
- Управляли данными в S3-совместимых хранилищах
- Разрабатывали пайплайны в Apache Airflow
- Знаете, как выполнять распределённую обработку на Apache Spark (Spark SQL, DataFrame)
- Умеете работать с данными через Trino
- Понимаете принципы CDC (Change Data Capture) и работали с соответствующими инструментами или реализовывали CDC-паттерны собственными средствами
