На проект крупного банка РФ (ТОП-5) ищем Data-аналитика/разработчика

В команду ищем аналитика-разработчика для работы с массивами неструктурированных данных. Предстоит заниматься интеграцией и исследований текстовых данных из всех уголков банка, выдвигать и проверять гипотезы, а также подготавливать данные для обучения, тестирования и продакшена NLP моделей.

 

Чем предстоит заниматься:

  • Работать с данными из HDFS и S3, баз данных (Greenplum, OracleDB, PostgreSQL), а также с файловыми шарами и сетевыми дисками.
  • Подготавливать визуализации данных в Superset и Streamlit.
  • Разрабатывать пайплайны подготовки данных для обучения и тестирования моделей.
  • Анализировать данные, строить и проверять гипотезы с использованием Python (pandas, polars) и SQL.
  • Участвовать в задачах разметки неструктурированных данных: от проектирования процесса до валидации результатов.
  • Анализировать работу существующих GenAI/NLP-сервисов.

 

Что ожидаем:

  • Уверенное знание SQL и опыт работы с популярными СУБД или распределёнными хранилищами данных.
  • Владение Python и основным стеком для анализа и визуализации данных: pandas, numpy, polars, matplotlib, seaborn, altair.
  • Опыт разработки ETL/ELT-пайплайнов.
  • Опыт работы в роли Data Analyst или Data Engineer (желательно с задачами, выходящими за рамки только SQL и BI).

 

Будет преимуществом:

  • Базовые знания в области Data Science.
  • Понимание базовых концепций NLP и желание развиваться в этом направлении.
  • Опыт работы с AI/ML-задачами.