ID 2838 — Middle Data Engineer + ML.

Локация: РФ. Формат: Удаленно. Занятость: фулл тайм.

Требования:

  • Высокий уровень знаний Python: структуры данных, итераторы, декораторы, параллельное и асинхронное программирование, ООП и функциональное программирование.
  • Отличные знания SQL: сложные запросы с использованием табличных выражений (CTE) и оконных функций.
  • Опыт работы с векторными хранилищами данных: OpenSearch, Qdrant; опыт работы с embedding и обогащением LLM (RAG).
  • Опыт работы в JupyterLab / JupyterHub.
  • Опыт реализации отказоустойчивых ETL-сервисов на Python для пакетной загрузки и трансформации данных под управлением Apache Airflow, Argo Workflows.
  • Хорошие знания Apache Spark, опыт использования pyspark, отладка и анализ через Spark History Server.
  • Опыт асинхронного взаимодействия с веб-сервисами по REST API (aiohttp, httpx).
  • Знание реляционных БД: Oracle, PostgreSQL.
  • Понимание обработки аналитических данных (OLAP), колоночных форматов хранения данных: parquet, orc.
  • Опыт работы с хранилищами больших данных: Hadoop/HDFS, S3; форматы таблиц: Hive, Iceberg.

Будет преимуществом:

  • Опыт с Apache Kafka и Apache Flink; чтение/запись в Kafka с помощью aiokafka, confluent-kafka, kafka-python; разработка потоковых приложений на Flink.

Личностные и коммуникационные навыки:

  • Проактивность, умение предлагать решения.
  • Позитивный настрой и командная работа, готовность делиться опытом и учиться.
  • Открытость в коммуникации трудностей, препятствующих решению задач.

Откликайтесь только при релевантном опыте.