Spring BootSeniorExperience

Представьте, endpoint на Spring Boot иногда отвечает за секунды вместо миллисекунд. Как вы будете искать причину?

Начните с GC-логов (STW паузы), затем проверьте hikaricp.connections.pending, slow query log PostgreSQL и distributed tracing — в 80% случаев spike вызван GC-паузой, исчерпанием пула или медленным SQL без индекса.

Диагностика нестабильной латентности endpoint-а

Endpoint, который иногда отвечает секунды вместо миллисекунд — классический случай нерегулярного spike latency. Причин несколько десятков; важен систематический подход от общего к частному.

Шаг 1: Воспроизвести и измерить паттерн

# Запустить 1000 запросов и посмотреть p50/p95/p99
wrk -t4 -c50 -d30s --latency http://localhost:8080/api/endpoint

# Или с hey
hey -n 1000 -c 20 http://localhost:8080/api/endpoint

Смотрите: spike происходит каждые N секунд (GC?), при определённом числе конкурентных запросов (pool exhaustion?), или случайно (внешний сервис?).

Шаг 2: GC — первый подозреваемый

# Включить GC logging в JVM opts
-Xlog:gc*:file=/tmp/gc.log:time,uptime:filecount=5,filesize=20m

# Посмотреть STW паузы
grep "Pause" /tmp/gc.log | awk '{print $NF}' | sort -n | tail -20

Stop-the-world паузы G1 GC >200ms — явная причина spike. Решение: увеличить heap (-Xmx), переключиться на ZGC (-XX:+UseZGC) или Shenandoah для Java 17+.

# ZGC для низких задержек (Java 17+)
java -XX:+UseZGC -Xmx4g -jar app.jar

Шаг 3: Hikari connection pool

# Метрики пула в реальном времени
curl http://localhost:8080/actuator/metrics/hikaricp.connections.pending
curl http://localhost:8080/actuator/metrics/hikaricp.connections.acquire
spring:
  datasource:
    hikari:
      maximum-pool-size: 20        # default 10 — часто мало
      connection-timeout: 3000     # ms, после этого HikariPool exception
      idle-timeout: 600000
      max-lifetime: 1800000
      leak-detection-threshold: 2000  # поймает незакрытые соединения

Если hikaricp.connections.pending > 0 в момент spike — пул исчерпан. Увеличьте maximum-pool-size, но помните: PostgreSQL по умолчанию ограничен 100 соединениями.

Шаг 4: Медленные SQL-запросы

# PostgreSQL slow query log
alter system set log_min_duration_statement = '100';  -- логировать запросы > 100ms
select pg_reload_conf();

# Посмотреть текущие долгие запросы
select pid, now() - query_start as duration, query
from pg_stat_activity
where state = 'active'
order by duration desc;

Если длинный запрос коррелирует со spike — смотрите EXPLAIN ANALYZE, проверяйте индексы, возможный lock wait.

Шаг 5: Distributed tracing

// Spring Boot 3 + Micrometer Tracing
// build.gradle
implementation 'io.micrometer:micrometer-tracing-bridge-otel'
implementation 'io.opentelemetry.instrumentation:opentelemetry-spring-boot-starter'
management:
  tracing:
    sampling:
      probability: 0.1  # 10% в prod, 1.0 при расследовании

В Jaeger или Zipkin откройте медленный trace и посмотрите, какой span занял большую часть времени: HTTP call к внешнему сервису? Redis timeout? S3 upload?

Шаг 6: Thread starvation и blocking code в WebFlux

// ПЛОХО: блокирующий вызов в reactive pipeline
public Mono<Response> handle(Request req) {
    return Mono.fromCallable(() -> jdbcRepo.findById(req.id()))  // блокирует reactor thread!
        .map(this::transform);
}

// ХОРОШО: вынести на boundedElastic
public Mono<Response> handle(Request req) {
    return Mono.fromCallable(() -> jdbcRepo.findById(req.id()))
        .subscribeOn(Schedulers.boundedElastic())
        .map(this::transform);
}

Шаг 7: Внешние зависимости без таймаутов

// RestTemplate с таймаутами
@Bean
public RestTemplate restTemplate() {
    HttpComponentsClientHttpRequestFactory factory =
        new HttpComponentsClientHttpRequestFactory();
    factory.setConnectTimeout(1000);
    factory.setReadTimeout(3000);
    return new RestTemplate(factory);
}

// WebClient (WebFlux)
@Bean
public WebClient webClient() {
    return WebClient.builder()
        .clientConnector(new ReactorClientHttpConnector(
            HttpClient.create()
                .responseTimeout(Duration.ofSeconds(3))
        ))
        .build();
}

Подводные камни

  • GC spike невидим без JVM-логов. Actuator не показывает GC-паузы напрямую — нужно либо JVM флаг, либо JMX/JFR.
  • Connection pool size * количество реплик. 3 инстанса с pool-size=20 = 60 соединений к PostgreSQL. При default max_connections=100 остаётся мало запаса.
  • @Transactional держит соединение до конца метода. Длинный метод с транзакцией + медленный внешний HTTP внутри = соединение из пула заблокировано на всё время HTTP-вызова.
  • Kotlin coroutines + Spring MVC. Blocking coroutine dispatcher на I/O-операциях без Dispatchers.IO блокирует общий пул потоков.
  • Lazy loading JPA вне транзакции = LazyInitializationException или N+1. Неожиданная загрузка коллекции при сериализации ответа тихо добавляет десятки запросов.
  • Scheduled задачи (@Scheduled) делят потоки с Tomcat. По умолчанию Spring использует один поток для всех @Scheduled — долгая задача задерживает остальные, а не HTTP-запросы, но косвенно влияет на состояние системы.
  • Кэш без TTL растёт бесконечно. @Cacheable с ConcurrentMapCacheManager без eviction policy приводит к OutOfMemoryError после нескольких часов работы под нагрузкой.
  • Распределённый трейсинг не покрывает @Async методы без правильного executor. Trace context теряется при переключении потоков без TaskDecorator, передающего MDC.

What hurts your answer

  • Сразу обвинять Spring Boot, не проверив соседние слои системы
  • Чинить симптом без минимального воспроизведения и evidence
  • Не учитывать версии, конфигурацию, окружение и recent changes

What they're listening for

  • Умеет локализовать проблему вокруг Spring Boot
  • Двигается от симптома к гипотезам и проверкам
  • Отличает баг инструмента от ошибки использования или окружения

Related topics