Необходим технический специалист, способный не только запускать нагрузочные проверки, но и активно развивать инфраструктуру нагрузочного тестирования, оптимизировать использование ресурсов и участвовать в разработке автоматизированных тестов на Python.  

Цель - обеспечение надежности, масштабируемости и предсказуемости релизов в условиях растущей нагрузки и увеличения числа критичных компонентов системы. 

Задачи

- Низкоуровневая диагностика производительности систем

Проведение системной диагностики Linux на уровне kernel / memory / networking / system calls, выявление деградаций CPU, IO и latency с использованием инструментов perf / strace / tcpdump / iostat.

- Анализ и локализация bottleneck'ов

Выявление узких мест на уровне application / database / storage / network, построение профилей производительности по latency / throughput / saturation, проведение root cause analysis инцидентов и деградаций.

- Observability и distributed tracing

Анализ метрик, логов и трассировок распределённых систем, корреляция событий и выявление деградаций с использованием Prometheus / Grafana / OpenTelemetry / Jaeger.

- Оптимизация производительности и масштабируемости

Настройка параметров системы и проведение сравнительных тестов конфигураций с целью оптимизации resource utilization / latency / throughput / stability.

- Работа с highload и распределёнными системами

Поддержка и развитие инфраструктуры распределённых систем с использованием horizontal scaling / load balancing / caching / high availability.

- Incident response и troubleshooting

Диагностика production-инцидентов и деградаций производительности, проведение incident analysis / root cause analysis / post-mortem / preventive improvements.

Требования

- Linux

Глубокое понимание архитектуры Linux: kernel / scheduler / memory management / networking stack, практический опыт диагностики и оптимизации production-систем под нагрузкой.

- Low-level диагностика

Уверенный опыт анализа производительности и поведения системы с использованием инструментов perf / strace / tcpdump / vmstat, понимание CPU, memory и IO profiling.

- Performance analysis methodologies

Практическое применение методологий анализа производительности: USE / RED / Golden Signals / capacity planning.

- Observability / Monitoring / Tracing

Опыт работы с системами мониторинга и трассировки: Prometheus / Grafana / OpenTelemetry / ELK, навыки анализа метрик, логов и трассировок.

- Highload systems

Понимание архитектуры и поведения систем под нагрузкой: horizontal scaling / load balancing / replication / fault tolerance, опыт оптимизации производительности и масштабируемости.

- Networking

Глубокое понимание сетевого взаимодействия: TCP/IP / HTTP / DNS / load balancing, опыт диагностики сетевых задержек и проблем производительности.

- Automation

Навыки автоматизации диагностики и инфраструктуры с использованием Bash / Python / Ansible / CI/CD.