Проект: крупное озеро данных (Data Lake) со сложными сценариями приёма и обработки данных из множества источников. Проект на старте — нет тяжёлого легаси, много пространства для технических экспериментов и выбора оптимальных решений.
Стек: PostgreSQL, Python 3, Selenium, Dagster, DuckDB, GitLab, Telegram
Обязанности:
- Руководить командой дата-инженеров (код-ревью, постановка задач, развитие)
- Проектировать конвейеры и инфраструктуру данных
- Разрабатывать и поддерживать парсеры (PDF, doc, docx, xls, xlsx)
- Автоматизировать обработку и преобразование данных
- Настраивать мониторинг и отладку конвейеров
Требования:
- Опыт руководства командой (формального или неформального) — от 5 лет
- Глубокое знание Python и библиотек для работы с данными (pandas, numpy и др.)
- Опыт парсинга/скрейпинга слабоструктурированных документов (PDF, doc, docx, xls, xlsx)
- Опыт построения конвейров данных с использованием оркестратора Dagster
- Понимание управления качеством данных (Data Quality)
- Понимание мониторинга и отладки конвейеров (логи, метрики, алерты)
- Знание форматов данных: JSON lines, Parquet, XML, CSV
- Опыт методов получения/поставки данных: S3, REST API, SOAP, RPC
- Уверенное знание PostgreSQL и Git (ветвление, ревью, merge-стратегии)
- Английский — чтение технической документации
Условия:
- Формат работы: удаленно
- Локация: РФ
- ЗП: от 250 - 350 т.р
- Оформление по ТК РФ