Обязанности:
Иерархический формат данныхОдна из важных задач — разработать формат сжатия для иерархических данных, который позволит и эффективно читать большими диапазонами, и быстро собирать один конкретный документ или его часть. Подобная задача требует как работы с различными механизмами сжатия, так и низкоуровневой инженерной проработки на уровне процессора и доступа к памяти. Вам потребуются и SIMD-инструкции, и адаптация кода под иерархию памяти на процессоре. Мы ожидаем, что вы любите алгоритмы и эффективное программирование на С++! Формат исторических данных для задачи аналитики
В динамических таблицах (так мы называем NewSQL-компоненту YTsaurus) традиционно используется формат данных, заточенный под обработку транзакций. История в таких данных хранится вместе с временными метками, что позволяет обеспечить уровень изоляции snapshot isolation. Такие данные избыточны в задачах аналитики: для них лучше подходят более простые форматы. Вам предстоит найти компромисс и адаптировать хранение истории в динтаблицах так, чтобы приспособить их к транзакционно-аналитическим задачам. Аналитические индексы
В аналитике применяются свои индексы: SMA, star-tree. Вам нужно будет добавить их в форматы данных, реализовать построение и использование в запросах. Эта задача потребует погружаться в весь цикл обработки SQL-запроса. Больше о бэкенде в Яндексе — в канале Yandex for Backend
Ключевые навыки:
- Умеете программировать на C++
- Знаете и продолжаете узнавать новые алгоритмы
- Любите погружаться в особенности работы железа
- Хотите строить надёжный сервис для пользователей
Дополнительные требования:
- Работали с низкоуровневыми оптимизациями: подгоняли алгоритм под иерархию памяти и конвейер процессора
- Разбираетесь в алгоритмах сжатия, особенно быстрого
- Знакомы с общими принципами построения СУБД и обработки SQL-запросов
