Duties

  • Достигать высокой доступности ИТ-платфомы компании и непрерывности бизнес-процессов;
  • Лидировать направления SRE, внедрять и улучшать практики и подходы обеспечения надежности;
  • Лидировать устранение инцидентов и их последствий;
  • Обеспечивать надежность и отказоустойчивость сервисов компании;
  • Стоить наблюдаемости систем и процессов на разных уровнях;
  • Организовывать процессы управления надежностью, инцидент- проблем-менеджмента;
  • Анализировать проблемные зоны ИТ-ландшафта, планировать работы по их устранению;
  • Ориентировать практики смежных команд на достижение высокого уровня культуры эксплуатации;
  • Помогать владельцам систем достигать больших "девяток";
  • Управлять командами SRE и инцидент-менеджеров;
  • Выступать в роли технического лидера.

Requirements

  • Знание современного стека технологий, cloud-native подходов;
  • Практический опыт внедрения практик и подходов SRE;
  • Понимание принципов обеспечения надежности и высокой доступности систем;
  • Опыт проектирования высоко-нагруженных ИТ-систем и обеспечения их отказоустойчивости;
  • Высшее техническое образование;
  • Опыт руководства командами от 3 лет;
  • Общий опыт системного администрирования, DevOps и SRE от 10 лет.