Обязанности:
  • Проектирование, развитие и сопровождение критически важной IT-инфраструктуры ЦОД (compute, network, storage, virtualization);
  • Анализ текущей архитектуры и внедрение решений по повышению отказоустойчивости, производительности и безопасности;
  • Разработка и стандартизация архитектурных решений (HA, DR, multi-site, кластерные решения);
  • Управление сложными инцидентами (Major Incident), проведение RCA (Root Cause Analysis);
  • Контроль и развитие стандартов эксплуатации инфраструктуры;
  • Проектирование и оптимизация мониторинга, логирования и observability;
  • Участие в capacity planning и прогнозировании роста инфраструктуры;
  • Анализ рисков и внедрение мер по повышению устойчивости (resilience engineering);
  • Координация изменений (Change Management) на уровне инфраструктуры;
  • Проектирование и контроль систем резервного копирования и Disaster Recovery (RPO/RTO);
  • Взаимодействие с командами сетей, безопасности и СХД при построении end-to-end решений;
  • Оценка новых технологий и участие в PoC;
  • Поддержка высоконагруженных систем с требованиями 24/7 и строгим SLA;
  • Участие в технических аудитах (включая PCI DSS);
  • Подготовка технической документации (HLD, LLD, SOP, runbooks).
Требования:
  • Высшее техническое образование (ИТ, телеком, информационная безопасность или смежные направления);
  • Опыт работы в IT-инфраструктуре от 5–8 лет, включая опыт на уровне L2/L3 или архитектора;
  • Глубокое понимание архитектуры дата-центров и взаимодействия компонентов (compute, network, storage, virtualization);
  • Опыт работы с высоконагруженными и отказоустойчивыми системами (mission-critical, 24/7);
  • Отличное знание сетевых технологий: TCP/IP, BGP, OSPF, VLAN, VXLAN, VPN, балансировка нагрузки;
  • Практический опыт администрирования Linux (RHEL/Ubuntu) и Windows Server;
  • Обязательный опыт работы с VMware vSphere, понимание HA / DRS / vMotion / Metro Cluster;
  • Понимание архитектуры СХД (SAN/NAS), RAID, репликации и резервного копирования;
  • Опыт работы с системами backup и Disaster Recovery (Veeam, Commvault или аналоги);
  • Понимание принципов информационной безопасности (NGFW, IDS/IPS, PKI, IAM, MFA);
  • Опыт участия в инцидент-менеджменте (Major Incident) и проведении RCA;
  • Опыт capacity planning и анализа производительности;
  • Навыки работы с системами мониторинга и observability (Zabbix, Grafana, ELK и др.);
  • Опыт взаимодействия с вендорами и участия в инфраструктурных проектах;
  • Умение писать техническую документацию (HLD, LLD, SOP, runbooks);
  • Английский язык на уровне чтения технической документации (Intermediate и выше).