Когда пользователь ищет ресторан в Поиске, строит маршрут в Картах или вызывает такси до клиники — он видит данные Справочника. Это единая платформа с информацией о миллионах организаций по всему миру. Реальный мир постоянно меняется: кафе закрываются, офисы переезжают, телефоны устаревают. Данные об этом приходят к нам из тысяч источников — от пользователей, партнёров, владельцев бизнесов, с сайтов, из панорам. У каждого источника бывают проблемы: партнёры могут отставать по актуальности, пользователи — ошибаться или намеренно портить информацию о конкурентах. Задача команды инфраструктуры — быстро собирать из этого единую, точную и актуальную картину. Мы усиливаем команду инфраструктуры Справочника. Команда отвечает за весь путь данных: от получения сигнала до публикации на Картах. Под капотом: C++, Python, YTsaurus (MapReduce), SQL и большие объёмы данных — миллионы организаций, миллиарды сигналов.

Обязанности:

LLM/VLM для модерации изменений
Не все изменения, которые приходят в систему, полезные и корректные — кто-то ошибается, кто-то может намеренно портить карточки конкурентов или предоставлять недостоверную информацию. Мы учим модели отличать вредоносные правки от честных. Оптимизация стабильности и скорости публикации
Пользователь ожидает, что изменения появятся почти мгновенно. Задача — сократить путь от сигнала до продакшена. Где-то это точечные оптимизации, где-то — архитектурные переделки, где-то — стабилизация софта. Агентская система диагностики проблем
Когда данные не публикуются или публикуются неправильно, поиск причины занимает много времени: десятки этапов обработки, тысячи источников, миллионы записей. Строим систему, которая сама анализирует ситуацию и предлагает решения. Масштабирование на новые регионы
Каждая страна — это другой язык, другие источники, другая специфика данных. Адаптируем Справочник так, чтобы он работал везде. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

  • Хорошо знаете C++ и Python
  • Понимаете алгоритмы, структуры данных, работу с БД

Дополнительные требования:

  • Работали в ML
  • Знаете MapReduce-системы