Системный Администратор Middle / Senior

Мы — Timeweb Cloud, провайдер облачных решений с географически распределённой инфраструктурой. Мы разрабатываем полноценную IaaS/PaaS-платформу, которая включает сервисы Managed Kubernetes, DBaaS, объектное хранилище S3, Load Balancing as a Service (LBaaS) и виртуальные приватные сети.

Мы ищем системного администратора, который будет заниматься нетиповыми конфигурациями серверов, расследовать сложные инциденты и автоматизировать всё, что движется.

Фокус роли — инфраструктура облака: виртуализация, сеть (overlay/underlay), производительность, инциденты уровня платформы.

Что предстоит делать:

Расследование сложных проблем
Анализировать логи, трейсы и метрики, чтобы находить корневые причины инцидентов в любой части облака.
Диагностировать проблемы на уровне Python-сервисов и скриптов (достаточно понимания кода, активная разработка не требуется).
Работать с ядром Linux, сетевым стеком для поиска узких мест.
Проектирование и установка нетиповых конфигураций
Разворачивать распределённые системы в проде и на живой нагрузке.
Оптимизировать производительность хостов виртуализации и сетевых dataplane-компонентов (NUMA, IRQ/RPS, I/O, планировщики).
Участвовать в архитектурном проектировании новых решений вместе с командой.
Писать скрипты на Bash и Python для автоматизации установки ПО и конфигурации серверов.
Работать с системами управления конфигурациями (SaltStack / Ansible).
Настраивать и развивать мониторинг (Zabbix и другие системы).
Участвовать в дежурствах (примерно неделя в месяц, oncall).
Подключаться к решению аварийных ситуаций, когда штатные средства и младшие команды не справляются.

Мы ждём от тебя:

Hard skills:

Глубокое понимание работы Linux: cgroups, namespaces, сетевой стек, systemd, процессы и система инициализации.
Понимание топологии процессоров, включая NUMA, и умение учитывать это при настройке производительности.
Умение расследовать проблемы на уровне ядра и системных вызовов: от анализа логов и strace до поиска узких мест.
Понимание устройства дискового ввода-вывода, файловых систем, вольюм менеджеров и планировщиков.
Опыт работы с QEMU/KVM и libvirt.
Понимание различий между виртуальными машинами и контейнерами.
Понимание VLAN, VXLAN, BGP.
Опыт работы с OpenvSwitch, понимание OpenFlow..
Опыт работы с SaltStack и/или Ansible.
Настройка и поддержка мониторинга (Zabbix или аналоги).
Python на уровне чтения кода (понимание, что происходит в сервисах и скриптах).
Уверенное владение Bash.

Будет огромным плюсом:

Базовое понимание Ceph: что это такое, как на нём строятся S3 и RBD-диски для виртуалок.
Опыт работы с SAN/NAS.
SDN и виртуализация
Опыт работы с OpenStack / OpenNebula / oVirt.
Знакомство с SDN-решениями (OVN, Tungsten Fabric).

Наш стек:

ОС и виртуализация: Linux (ядро, systemd), QEMU/KVM, libvirt
Сети: VLAN, VXLAN, BGP, OpenvSwitch, OpenFlow, FRR
Автоматизация: SaltStack, Ansible, Bash, Python (скриптинг)
Мониторинг: Zabbix, Prometheus/Node Exporter, Victoria Metrics
Хранилища: базовое взаимодействие с Ceph
CI/CD: GitLab CI/CD

Что мы предлагаем:

Официальное оформление в аккредитованной IT компании со всеми вытекающими преимуществами;
ДМС;
Компенсация спорта;
Компенсация психологических консультаций;
8 дополнительных day-off в год - по 2 каждый квартал;
Удаленный формат работы или работа в офисе у м. Московские ворота (г. Санкт-Петербург) с возможностью гибрида - на ваш выбор.

Дополнительно для тех, кто с нами в Петербургском офисе:

Приемы офисного врача;
Компенсация питания по “НаЛанч”;
Библиотека в офисе, возможность обучаться у коллег из других отделов и направлений.
Офисная кухня с кофе, чаем, фруктами и снэками в неограниченном количестве.

Для быстрой коммуникации укажите ссылку на ваше портфолио и @ своего Telegram в сопроводительном, спасибо! :)

Job description

Match