О команде: Мы — команда хранилища данных Авито. У нас есть более сотни внутренних и внешних систем, из которых мы получаем данные. Мы строим отчётность, помогаем бизнесу проверять гипотезы и принимать решения, а также выбирать эффективные способы достижения целей на основе данных.Наша цель — сделать так, чтобы хранилище работало стабильно и соответствовало требованиям по доступности, отказоустойчивости и своевременной готовности данных, которые важны для наших пользователей.Мы адаптируем инфраструктуру аналитической платформы для быстрого развёртывания и отказоустойчивой работы. Переходим на более гибкое решение и хотим применять подходы распределённой архитектуры к хранилищу данных. Поддержка такой системы становится сложнее, поэтому нам предстоит перейти от подхода «все проблемы исправляются ручным перезапуском» к подходу, при котором система восстанавливает себя сама без ручного вмешательства.Среди наших задач — обеспечить эффективную утилизацию ресурсов хранилища, упростить поддержку и масштабирование узлов, сделать компоненты отказоустойчивыми, повысить наблюдаемость инфраструктуры, разработать прозрачный механизм ответственности за готовность данных в срок и сократить число инцидентов.
Вам предстоит: — поддерживать выделенные кластеры Kubernetes аналитической платформы для отказоустойчивой работы Flink и Trino;— обеспечивать оптимальную конфигурацию кластера на всех этапах;— заниматься мониторингом и тонкой настройкой составных частей кластера: RocksDB, HAProxy и т. д.;— автоматизировать рутинные процессы;— тестировать и внедрять новые версии фреймворка;— участвовать в расследовании инцидентов и устранять проблемы производительности;— оптимизировать использование ресурсов и повышать эффективность работы сервисов.
Мы ждём, что вы: — проектировали компоненты распределённых систем или отвечали за них;— любите разбираться в том, как работают аналитические системы;— имеете опыт работы в роли SRE, DevOps-, Infrastructure- или бэкенд-инженера от 3 лет;— уверенно работаете с Linux и умеете заниматься траблшутингом продовых систем;— умеете программировать на Python, Java или другом языке программирования.
Работа у нас — это: — возможность реализовать свои идеи в проекте с многомиллионной аудиторией;— талантливая команда, готовая поддержать ваши инициативы;— мощное железо, дополнительные мониторы и всё, что нужно для продуктивной работы;— прозрачная система премий, достойная зарплата— размер обсудим на собеседовании;— личный бюджет на обучение, который можно тратить на книги, курсы и конференции;— забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;— удалёнка и офис в 2 минутах от метро «Белорусская»: панорамный вид на центр города, места для уединённой работы и зоны отдыха.