Duties
- Достигать высокой доступности ИТ-платфомы компании и непрерывности бизнес-процессов;
- Лидировать направления SRE, внедрять и улучшать практики и подходы обеспечения надежности;
- Лидировать устранение инцидентов и их последствий;
- Обеспечивать надежность и отказоустойчивость сервисов компании;
- Стоить наблюдаемости систем и процессов на разных уровнях;
- Организовывать процессы управления надежностью, инцидент- проблем-менеджмента;
- Анализировать проблемные зоны ИТ-ландшафта, планировать работы по их устранению;
- Ориентировать практики смежных команд на достижение высокого уровня культуры эксплуатации;
- Помогать владельцам систем достигать больших "девяток";
- Управлять командами SRE и инцидент-менеджеров;
- Выступать в роли технического лидера.
Requirements
- Знание современного стека технологий, cloud-native подходов;
- Практический опыт внедрения практик и подходов SRE;
- Понимание принципов обеспечения надежности и высокой доступности систем;
- Опыт проектирования высоко-нагруженных ИТ-систем и обеспечения их отказоустойчивости;
- Высшее техническое образование;
- Опыт руководства командами от 3 лет;
- Общий опыт системного администрирования, DevOps и SRE от 10 лет.