Мы создаём масштабную и безопасную аналитическую платформу для работы с большими данными. Нам нужен бэкенд-разработчик, который будет помогать создавать DWH и ускорять поставку данных в 2–3 раза в первые 6 месяцев.

Обязанности:

Разработка, масштабирование и миграция дата-платформы
Вам предстоит проектировать и развивать платформу на базе S3, Greenplum, Trino, Apache Airflow, Apache Spark, Yandex Cloud, готовить её к кратному росту объёмов данных, обеспечивать миграцию с Greenplum на Trino/S3 для снижения затрат и ускорения доступа к данным. Интеграция источников и управление загрузкой данных
Вы будете строить процессы выгрузки из реляционных СУБД, NoSQL, файловых хранилищ и Kafka, реализовывать стратегии загрузки (полную или инкрементальную с CDC, пакетную или потоковую обработку), внедрять Spark Streaming для обновления данных в режиме near-real-time, работать со снепшотами, инкрементами, аудит-таблицами и CDC. Обеспечение надёжности и эффективности платформы
Вы будете обеспечивать отказоустойчивость, безопасность, производительность и масштабируемость сервисов и дата-пайплайнов в режиме 24/7, оптимизировать стоимость обработки данных и использования ресурсов, развёртывать инфраструктуру и проводить её мониторинг через CI/CD-пайплайны, сокращать объём ручных операций, создавать новые интеграции. Наблюдаемость, контроль качества и развитие инструментов
Предстоит создавать observability-платформу для DWH, которая поможет обеспечить мониторинг статусов сборки, качество данных, анализ Data lineage, логирование. Вы будете заниматься версионированием данных, тестировать пайплайны, развивать внутренние фреймворки и low-code-решения для загрузки и трансформации данных. Безопасность и организация разработки
Нужно будет обеспечить автоматическую выдачу и контроль прав доступа к инфраструктуре и данным, проводить аудит действий пользователей, создавать изолированные среды разработки, тестирования и предпрода с автоматизированным тестированием, выстраивать среду безопасной разработки и повышать надёжность решений. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

  • Занимались коммерческой разработкой от четырёх лет
  • Строили процессы, перечисленные в ключевых задачах
  • Оптимизировали сложные аналитические запросы, работали с планами выполнения
  • Проектировали схемы данных, занимались партиционированием, шардированием, создавали эффективные индексы
  • Работали с различными типами СУБД: реляционными (PostgreSQL, Oracle), NoSQL (MongoDB), MPP-системами (Greenplum)
  • Управляли данными в S3-совместимых хранилищах
  • Разрабатывали пайплайны в Apache Airflow
  • Знаете, как выполнять распределённую обработку на Apache Spark (Spark SQL, DataFrame)
  • Умеете работать с данными через Trino
  • Понимаете принципы CDC (Change Data Capture) и работали с соответствующими инструментами или реализовывали CDC-паттерны собственными средствами