- Проектирование, развитие и сопровождение критически важной IT-инфраструктуры ЦОД (compute, network, storage, virtualization);
- Анализ текущей архитектуры и внедрение решений по повышению отказоустойчивости, производительности и безопасности;
- Разработка и стандартизация архитектурных решений (HA, DR, multi-site, кластерные решения);
- Управление сложными инцидентами (Major Incident), проведение RCA (Root Cause Analysis);
- Контроль и развитие стандартов эксплуатации инфраструктуры;
- Проектирование и оптимизация мониторинга, логирования и observability;
- Участие в capacity planning и прогнозировании роста инфраструктуры;
- Анализ рисков и внедрение мер по повышению устойчивости (resilience engineering);
- Координация изменений (Change Management) на уровне инфраструктуры;
- Проектирование и контроль систем резервного копирования и Disaster Recovery (RPO/RTO);
- Взаимодействие с командами сетей, безопасности и СХД при построении end-to-end решений;
- Оценка новых технологий и участие в PoC;
- Поддержка высоконагруженных систем с требованиями 24/7 и строгим SLA;
- Участие в технических аудитах (включая PCI DSS);
- Подготовка технической документации (HLD, LLD, SOP, runbooks).
- Высшее техническое образование (ИТ, телеком, информационная безопасность или смежные направления);
- Опыт работы в IT-инфраструктуре от 5–8 лет, включая опыт на уровне L2/L3 или архитектора;
- Глубокое понимание архитектуры дата-центров и взаимодействия компонентов (compute, network, storage, virtualization);
- Опыт работы с высоконагруженными и отказоустойчивыми системами (mission-critical, 24/7);
- Отличное знание сетевых технологий: TCP/IP, BGP, OSPF, VLAN, VXLAN, VPN, балансировка нагрузки;
- Практический опыт администрирования Linux (RHEL/Ubuntu) и Windows Server;
- Обязательный опыт работы с VMware vSphere, понимание HA / DRS / vMotion / Metro Cluster;
- Понимание архитектуры СХД (SAN/NAS), RAID, репликации и резервного копирования;
- Опыт работы с системами backup и Disaster Recovery (Veeam, Commvault или аналоги);
- Понимание принципов информационной безопасности (NGFW, IDS/IPS, PKI, IAM, MFA);
- Опыт участия в инцидент-менеджменте (Major Incident) и проведении RCA;
- Опыт capacity planning и анализа производительности;
- Навыки работы с системами мониторинга и observability (Zabbix, Grafana, ELK и др.);
- Опыт взаимодействия с вендорами и участия в инфраструктурных проектах;
- Умение писать техническую документацию (HLD, LLD, SOP, runbooks);
- Английский язык на уровне чтения технической документации (Intermediate и выше).