Обязанности:

Проектирование, развитие и сопровождение критически важной IT-инфраструктуры ЦОД (compute, network, storage, virtualization);
Анализ текущей архитектуры и внедрение решений по повышению отказоустойчивости, производительности и безопасности;
Разработка и стандартизация архитектурных решений (HA, DR, multi-site, кластерные решения);
Управление сложными инцидентами (Major Incident), проведение RCA (Root Cause Analysis);
Контроль и развитие стандартов эксплуатации инфраструктуры;
Проектирование и оптимизация мониторинга, логирования и observability;
Участие в capacity planning и прогнозировании роста инфраструктуры;
Анализ рисков и внедрение мер по повышению устойчивости (resilience engineering);
Координация изменений (Change Management) на уровне инфраструктуры;
Проектирование и контроль систем резервного копирования и Disaster Recovery (RPO/RTO);
Взаимодействие с командами сетей, безопасности и СХД при построении end-to-end решений;
Оценка новых технологий и участие в PoC;
Поддержка высоконагруженных систем с требованиями 24/7 и строгим SLA;
Участие в технических аудитах (включая PCI DSS);
Подготовка технической документации (HLD, LLD, SOP, runbooks).

Требования:

Высшее техническое образование (ИТ, телеком, информационная безопасность или смежные направления);
Опыт работы в IT-инфраструктуре от 5–8 лет, включая опыт на уровне L2/L3 или архитектора;
Глубокое понимание архитектуры дата-центров и взаимодействия компонентов (compute, network, storage, virtualization);
Опыт работы с высоконагруженными и отказоустойчивыми системами (mission-critical, 24/7);
Отличное знание сетевых технологий: TCP/IP, BGP, OSPF, VLAN, VXLAN, VPN, балансировка нагрузки;
Практический опыт администрирования Linux (RHEL/Ubuntu) и Windows Server;
Обязательный опыт работы с VMware vSphere, понимание HA / DRS / vMotion / Metro Cluster;
Понимание архитектуры СХД (SAN/NAS), RAID, репликации и резервного копирования;
Опыт работы с системами backup и Disaster Recovery (Veeam, Commvault или аналоги);
Понимание принципов информационной безопасности (NGFW, IDS/IPS, PKI, IAM, MFA);
Опыт участия в инцидент-менеджменте (Major Incident) и проведении RCA;
Опыт capacity planning и анализа производительности;
Навыки работы с системами мониторинга и observability (Zabbix, Grafana, ELK и др.);
Опыт взаимодействия с вендорами и участия в инфраструктурных проектах;
Умение писать техническую документацию (HLD, LLD, SOP, runbooks);
Английский язык на уровне чтения технической документации (Intermediate и выше).

Системный администратор (ЦОД)

Job description

Match

Estimated salary