Мы ищем человека, который будет работать с большими объёмами неструктурированной текстовой информации. Основные задачи — собирать и исследовать текстовые данные из всех подразделений банка, формулировать и проверять гипотезы, а также готовить качественные датасеты для обучения, тестирования и промышленного запуска моделей NLP.
Что предстоит делать:
• Извлекать и объединять данные из HDFS и S3, из баз GreenPlum, OracleDB, PostgreSQL, а также из файловых хранилищ и сетевых дисков. • Создавать понятные визуализации данных с помощью Superset и Streamlit. • Разрабатывать и поддерживать пайплайны предобработки данных для тренировки и тестирования моделей. • Проводить глубокий анализ данных, выдвигать гипотезы и проверять их на Python (pandas, polars) и SQL. • Организовывать процесс разметки неструктурированных данных: от проектирования всей схемы разметки до контроля качества и валидации результатов. • Анализировать эффективность текущих GenAI- и NLP-сервисов банка.
Что мы ожидаем от кандидата:
• Отличное владение SQL и уверенный опыт работы с реляционными СУБД и распределёнными хранилищами данных. • Глубокие знания Python и стека анализа/визуализации: pandas, numpy, polars, matplotlib, seaborn, altair. • Желательно понимание базовых принципов NLP и сильное желание развиваться в этой области. • Практический опыт создания ETL/ELT-пайплайнов. • Базовые знания Data Science будут существенным преимуществом.