Наша SRE-команда создаёт надёжную инфраструктуру и обеспечивает бесперебойную работу _highload_ систем для всех решений и умных устройств Салют.

Мы отвечаем за надёжность и доступность ключевых сервисов в режиме 24/7/365.

Ищем опытного SRE Tech Lead, который станет техническим центром нашей команды. Вы будете отвечать за выбор технологий и внедрение лучших практик, обеспечивающих стабильность, доступность и масштабируемость платформы Салют — сердца нашей экосистемы.

Для нас важен глубокий технический бэкграунд и способность быть «играющим тренером», который не только задаёт вектор развития, но и активно участвует в решении самых сложных технических задач.

Первый этап отбора на эту вакансию – общение с AI-рекрутером. После отклика ждите сообщение от него в Telegram, диалог займёт примерно 10 минут. Задача AI-рекрутера — уточнить недостающие детали и ускорить рассмотрение вашей кандидатуры.

AI-рекрутер только начинает свой путь, поэтому просим относиться с пониманием. Ваш опыт и участие помогут сделать его удобным и полезным для всех!

Обязанности

  • Техническое лидерство: определение архитектуры решений, выбор технологий и стандартов для обеспечения надёжности, доступности и производительности систем.
  • Сопровождение и развитие \_highload\_-сервисов: внедрение, масштабирование и оптимизация инфраструктуры.
  • Проектирование и поддержка промышленного и тестового окружения (Linux, VM, K8s, OpenShift).
  • Обеспечение заявленной доступности и производительности IT-систем (24/7/365).
  • Анализ и устранение сложных инцидентов, проведение _RCA_ (анализ первопричин).
  • Автоматизация рутинных задач: разработка скриптов и инструментов (Python, ChatOps).
  • Взаимодействие с командами разработки и бизнесом для согласования технических решений.

Требования

  • Глубокий опыт внедрения и сопровождения ИТ-систем с высокими требованиями к надёжности и доступности.
  • Экспертные знания Linux.
  • Практические знания и навыки работы с контейнеризацией (K8s, OpenShift).
  • Опыт работы с системами мониторинга (Zabbix, Grafana) и сбора логов/метрик.
  • Понимание сетевых протоколов (TCP/IP, HTTP) и принципов построения отказоустойчивых систем.
  • Опыт работы с Nginx, Kafka, ZooKeeper, HAProxy, S3.
  • Навыки администрирования баз данных (PostgreSQL, MongoDB), понимание принципов работы.
  • Понимание методологии DevOps и практический опыт использования инструментов автоматизации (Ansible, AWX).

Будет преимуществом:

  • Навыки разработки на Python, Java или C++.
  • Опыт автоматизации с использованием Python, ChatOps.
  • Понимание принципов Infrastructure as Code (IaC), опыт с Terraform.
  • Интерес к теме AI и опыт создания \_AI\_-агентов.

Условия

  • Инновационные, амбициозные проекты и задачи, которые развивают: всегда есть возможность прокачать свои навыки в работе и профессионально расти;
  • Среда для обмена знаниями – высокая экспертиза внутри команды;
  • Сплоченная команда, работающая над общими задачами и умеющая хорошо отдыхать;
  • Нашу культуру создают сами сотрудники – мы их слышим и помогаем создавать и поддерживать корпоративные комьюнити по интересам
  • Стабильная заработная плата и годовой бонус;
  • **Гибридный формат работы.** Современный IT-офис вблизи Москва-Сити в пяти минутах от метро "Кутузовская", с фитнес залом;
  • Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития;
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
  • Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ;
  • Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
  • Вознаграждение за рекомендацию друзей в команду Сбера.