На проект крупного банка РФ (ТОП-5) ищем Data-аналитика/разработчика

В команду ищем аналитика-разработчика для работы с массивами неструктурированных данных. Предстоит заниматься интеграцией и исследований текстовых данных из всех уголков банка, выдвигать и проверять гипотезы, а также подготавливать данные для обучения, тестирования и продакшена NLP моделей.

Чем предстоит заниматься:

Работать с данными из HDFS и S3, баз данных (Greenplum, OracleDB, PostgreSQL), а также с файловыми шарами и сетевыми дисками.
Подготавливать визуализации данных в Superset и Streamlit.
Разрабатывать пайплайны подготовки данных для обучения и тестирования моделей.
Анализировать данные, строить и проверять гипотезы с использованием Python (pandas, polars) и SQL.
Участвовать в задачах разметки неструктурированных данных: от проектирования процесса до валидации результатов.
Анализировать работу существующих GenAI/NLP-сервисов.

Что ожидаем:

Уверенное знание SQL и опыт работы с популярными СУБД или распределёнными хранилищами данных.
Владение Python и основным стеком для анализа и визуализации данных: pandas, numpy, polars, matplotlib, seaborn, altair.
Опыт разработки ETL/ELT-пайплайнов.
Опыт работы в роли Data Analyst или Data Engineer (желательно с задачами, выходящими за рамки только SQL и BI).

Будет преимуществом:

Базовые знания в области Data Science.
Понимание базовых концепций NLP и желание развиваться в этом направлении.
Опыт работы с AI/ML-задачами.

Data-аналитик/разработчик

Описание вакансии