ID 2838 — Middle Data Engineer + ML.
Локация: РФ. Формат: Удаленно. Занятость: фулл тайм.
Требования:
- Высокий уровень знаний Python: структуры данных, итераторы, декораторы, параллельное и асинхронное программирование, ООП и функциональное программирование.
- Отличные знания SQL: сложные запросы с использованием табличных выражений (CTE) и оконных функций.
- Опыт работы с векторными хранилищами данных: OpenSearch, Qdrant; опыт работы с embedding и обогащением LLM (RAG).
- Опыт работы в JupyterLab / JupyterHub.
- Опыт реализации отказоустойчивых ETL-сервисов на Python для пакетной загрузки и трансформации данных под управлением Apache Airflow, Argo Workflows.
- Хорошие знания Apache Spark, опыт использования pyspark, отладка и анализ через Spark History Server.
- Опыт асинхронного взаимодействия с веб-сервисами по REST API (aiohttp, httpx).
- Знание реляционных БД: Oracle, PostgreSQL.
- Понимание обработки аналитических данных (OLAP), колоночных форматов хранения данных: parquet, orc.
- Опыт работы с хранилищами больших данных: Hadoop/HDFS, S3; форматы таблиц: Hive, Iceberg.
Будет преимуществом:
- Опыт с Apache Kafka и Apache Flink; чтение/запись в Kafka с помощью aiokafka, confluent-kafka, kafka-python; разработка потоковых приложений на Flink.
Личностные и коммуникационные навыки:
- Проактивность, умение предлагать решения.
- Позитивный настрой и командная работа, готовность делиться опытом и учиться.
- Открытость в коммуникации трудностей, препятствующих решению задач.
Откликайтесь только при релевантном опыте.