Инженер данных
Компания: Альфа-Банк
Формат: гибрид, Москва
Чем предстоит заниматься:
- Реализация высоконагруженных конвейеров обработки данных для обеспечения надежной и бесперебойной репликации данных из ИТ-систем Банка.
- Реализация комплексных задач по подготовке данных в целевых аналитических хранилищах (DataLake, SandBox, FeatureStore) для построения признаков, необходимых для разработки моделей машинного обучения.
- Разработка и поддержание в актуальном состоянии документации по разработанному функционалу.
- Своевременное отражение статуса выполнения задач в Jira.
- Проверка качества кода (код-ревью), написанного инженерами и младшими инженерами данных.
Наши пожелания к кандидатам:
- Python — уверенное знание структур данных и алгоритмов, эффективное применение принципов ООП и функционального программирования, опыт написания модульных и интеграционных тестов, знание и опыт применения библиотек обработки и анализа данных: numpy, pandas.
- Опыт разработки и внедрения в промышленную эксплуатацию сервисов загрузки и обработки неструктурированных и слабо структурированных данных (текст, xml, json) из внешних источников.
- Способность разобраться с API поставщиков данных, используя доступную документацию.
- SQL — умение создавать сложные запросы с использованием аналитических оконных функций и использовать инструменты профилирования для оптимизации их производительности, опыт работы с БД Oracle, Postgres, Greenplum.
- Уверенное знание и опыт работы с инструментами разработки, планирования и мониторинга рабочих процессов (workflow engines) пакетной обработки данных.
- Airflow.
- Опыт разработки сложных, высоконагруженных приложений обработки данных на основе PySpark, уверенное знание настроек Spark и их влияния на производительность приложений Spark.