Data Center Infrastructure Management (DCIM) — технологии и сервисы для управления серверной инфраструктурой Яндекса. DCIM — это не абстрактный бэкенд, а продукт, которым ежедневно пользуются сотни инженеров и операционных команд для принятия ключевых решений. Инфраструктура Яндекса — одна из самых крупных в стране и мире. Пять дата-центров, эксабайты данных, 150 тысяч серверов — всё это требует точного управления. Наша команда Assets & Capacity создаёт мозг и нервную систему для этого гиганта: мы разрабатываем DCIM-системы, которые планируют мощности на годы вперёд и ведут технический учёт миллионов активов. Вы будете работать над критической инфраструктурой, необходимой абсолютно любому сервису в Яндексе — от облачных платформ до AI/ML-кластеров. Ваши решения будут напрямую влиять на то, как растёт и развивается технологический фундамент компании. Вам предстоит участвовать в полном цикле: от обсуждения требований до проектирования, реализации и эксплуатации систем.

Обязанности:

Capacity Management: расчёты на опережение
Вам предстоит провести редизайн вычислительного пайплайна прогноза энергопотребления оборудования: сделать расчёты воспроизводимыми и тестируемыми; поддерживать возможность экспериментов, в том числе и на исторических данных, а также продумать архитектуру хранения временных рядов — метрики оборудования, результаты работы пайплайна, исторические данные, чтобы упростить и ускорить вычисления и визуализацию. Assets: учёт в эксабайтном масштабе
Вам нужно будет спроектировать систему обмена данными между сервисами DCIM — уведомления об обновлениях, подписки на обновления, ревизии, дифф, историю изменений. Также вам предстоит научиться эксплуатировать систему технического учёта в федеративной модели: на множестве инсталляций, независимо от дата-центровой инфраструктуры Яндекса — обмен данными, master-master-синхронизация, независимая авторизация. В числе ваших задач будет оптимизация и доработка API чтения данных об учёте над десятками миллионов объектов — CQRS, кеши, полнотекстовый поиск, саджесты, фасетные фильтры, поиск по картинке, нейросетевой поиск. Вы будете проводить research узких мест, предлагать и реализовывать изменения в архитектуре. Визуализация и картография инфраструктурных дата-центров
Предстоит развивать внутренний движок отображения карт дата-центров: поддерживать визуализацию электрической топологии, отображение показаний датчиков оборудования. Помимо этого, нужно будет спроектировать и реализовать новый сервис учёта и хранения топологии дата-центров и интегрировать его с другими сервисами DCIM. Больше о бэкенде в Яндексе — в канале Yandex for Backend

Ключевые навыки:

  • Уверенно владеете Python и пишете надёжный, высокопроизводительный код
  • Имеете опыт работы с реляционными (PostgreSQL) и нереляционными СУБД
  • Понимаете принципы построения распределённых систем
  • Готовы нести ответственность за продукт в целом, а не только за код
  • Обладаете системным мышлением и умеете глубоко погружаться в сложные доменные области

Дополнительные требования:

  • Работали с большими объёмами данных
  • Знакомы с Linux, Docker, S3
  • Имеете опыт построения и оптимизации высоконагруженных систем