Проект: крупное озеро данных (Data Lake) со сложными сценариями приёма и обработки данных из множества источников. Проект на старте — нет тяжёлого легаси, много пространства для технических экспериментов и выбора оптимальных решений.

Стек: PostgreSQL, Python 3, Selenium, Dagster, DuckDB, GitLab, Telegram

Обязанности:

  • Руководить командой дата-инженеров (код-ревью, постановка задач, развитие)
  • Проектировать конвейеры и инфраструктуру данных
  • Разрабатывать и поддерживать парсеры (PDF, doc, docx, xls, xlsx)
  • Автоматизировать обработку и преобразование данных
  • Настраивать мониторинг и отладку конвейеров

Требования:

  • Опыт руководства командой (формального или неформального) — от 5 лет
  • Глубокое знание Python и библиотек для работы с данными (pandas, numpy и др.)
  • Опыт парсинга/скрейпинга слабоструктурированных документов (PDF, doc, docx, xls, xlsx)
  • Опыт построения конвейров данных с использованием оркестратора Dagster
  • Понимание управления качеством данных (Data Quality)
  • Понимание мониторинга и отладки конвейеров (логи, метрики, алерты)
  • Знание форматов данных: JSON lines, Parquet, XML, CSV
  • Опыт методов получения/поставки данных: S3, REST API, SOAP, RPC
  • Уверенное знание PostgreSQL и Git (ветвление, ревью, merge-стратегии)
  • Английский — чтение технической документации

Условия:

  • Формат работы: удаленно
  • Локация: РФ
  • ЗП: от 250 - 350 т.р
  • Оформление по ТК РФ