Объединённая компания Wildberries и Russ — это международная технологическая компания, образованная в результате слияния двух лидеров рынка — IT-компании Wildberries и оператора наружной рекламы Russ.

Мы - команда платформы данных в направлении Trust & Safety. Делаем данные и признаки для моделей машинного обучения, которые используются в антифроде, модерации контента и других продуктах. У нас есть как потоковая платформа
(Databus/Kafka + Flink + Redis/Cassandra), так и “озеро” данных на S3/Apache Iceberg с доступом через Trino.
Мы ищем дата-инженера, который обеспечит расчёт и поставку признаков для ML-моделей — от чтения сырых событий до записи финальных значений в онлайн- и офлайн-хранилища.

Обязанности

  • Проектировать и разрабатывать потоковые процессы, которые читают события из Databus/Kafka и считают онлайн‑признаки, записывая их в Redis и Cassandra.
  • Проектировать и разрабатывать пакетные процессы, которые читают данные из S3/Iceberg через Trino, считают офлайн‑признаки и пишут результаты обратно в S3/Iceberg и/или ClickHouse.
  • Следить за тем, чтобы один и тот же признак был согласован между обучением и продакшеном (одна логика расчёта, единый контракт).
  • Настраивать расписания, пересчёты и бэки, чтобы признаки обновлялись вовремя и выдерживали SLA по свежести.
  • Работать с качеством данных: добавлять проверки, мониторить аномалии, разбирать инциденты, когда “признак поехал”.
  • Совместно с DS и аналитиками придумывать новые признаки и помогать перевести их из экспериментальных скриптов в стабильные пайплайны.

Требования

  • 4-5+ лет опыта в роли Data Engineer / Backend+Data.
  • Уверенный опыт работы с Kafka‑подобными очередями (Databus/Kafka): продюсеры/консьюмеры, партиционирование, ключи, обработка ошибок.
  • Практический опыт со streaming‑движком (желательно Flink; Spark Structured Streaming подойдёт, если есть реальный прод‑опыт).
  • Опыт работы с Redis или Cassandra как онлайновым хранилищем данных/признаков.
  • Опыт работы с S3‑подобным хранилищем и табличным форматом (Iceberg/Delta/Hudi) и доступа к ним через SQL‑движок (Trino/Presto/Spark SQL).
  • Отличное знание SQL и опыт работы с ClickHouse.
  • Python на уровне уверенной разработки data‑скриптов и сервисной логики.
  • Опыт настройки и сопровождения пайплайнов в Airflow.
  • Понимание задач ML‑пайплайнов: train/serve skew, пересчёты признаков, влияние задержек и потерь событий. •

Условия

  • Обучение и развитие: языковые клубы, собственный корпоративный университет, программы развития управленческих навыков и многое другое;
  • Благополучие сотрудников: корпоративный пакет ДМС со стоматологией, корпоративный спорт, консультации психолога и дополнительные возможности аккредитованной IT-компании;
  • Множество сообществ: клуб спикеров, футбола, йоги, шахмат и т.д.;
  • Забота о семьях: создаем условия, в которых легко сочетать карьеру и заботу о близких – от гибкого подхода до масштабных проектов для детей сотрудников;
  • Скидки и партнерские программы: на обучение, страхование, покупки и многое другое;
  • Комфортная рабочая среда: бесплатное питание в офисе, современные офисы рядом с метро, корпоративная техника и портал для сотрудников.