DjangoSeniorExperience
Представьте, endpoint на Django иногда отвечает за секунды вместо миллисекунд. Как вы будете искать причину?
Собери перцентили задержек (p95/p99), в момент тормозов проверяй pg_stat_activity на локи и долгие запросы, ищи connection pool exhaustion, N+1 через django-silk, внешние HTTP без timeout и cache stampede.
Расследование нестабильной медленной работы эндпоинта
Нестабильность («иногда медленно») — самый сложный класс проблем. Детерминированные баги воспроизводятся; флаппинг требует наблюдения в реальном времени и сбора статистики.
Шаг 1: Собрать данные о задержках
Первый приоритет — зафиксировать паттерн. Когда именно медленно? Только в пиковые часы? Каждый N-й запрос? После нескольких часов аптайма?
# Простой мониторинг из shell: запрос каждые 5 секунд с временем ответа
while true; do
curl -o /dev/null -s -w "%{time_total}\n" https://api.example.com/endpoint
sleep 5
done
- Настроить Gunicorn access log с временем:
access_log_format = '%(h)s %(r)s %(s)s %(b)s %(D)s'(D — microseconds). - В Nginx:
$upstream_response_timevs$request_time— разница укажет на сетевой overhead между nginx и gunicorn. - Собирать перцентили (p50, p95, p99) через Prometheus + histogram_quantile или Datadog APM.
Шаг 2: Проверить ресурсы в момент тормозов
# Активные запросы к Postgres во время медленного ответа
psql -U postgres -c "
SELECT pid, now() - query_start AS dur, state, wait_event_type, wait_event, left(query, 100)
FROM pg_stat_activity
WHERE state != 'idle'
ORDER BY dur DESC;
"
# Блокировки
psql -U postgres -c "
SELECT blocked.pid, blocking.pid AS blocking_pid, blocked.query
FROM pg_locks blocked_locks
JOIN pg_stat_activity blocked ON blocked.pid = blocked_locks.pid
JOIN pg_locks blocking_locks ON blocking_locks.locktype = blocked_locks.locktype
AND blocking_locks.relation IS NOT DISTINCT FROM blocked_locks.relation
AND blocking_locks.granted AND NOT blocked_locks.granted
JOIN pg_stat_activity blocking ON blocking.pid = blocking_locks.pid;
"
Шаг 3: Подозреваемые — connection pool и N+1
- Connection pool exhaustion: Django открывает соединение на запрос. Если все CONN_MAX_AGE соединения заняты, новый запрос ждёт. Проверить:
SELECT count(*) FROM pg_stat_activity WHERE datname='mydb'. Использовать pgBouncer в transaction mode. - N+1 запросы: один запрос делает 1+N SQL — нагрузка растёт линейно с данными. django-debug-toolbar в dev покажет дубли. В production — django-silk или EXPLAIN ANALYZE.
# Выявить N+1: поставить middleware для логирования числа запросов
import logging
from django.db import connection
class QueryCountMiddleware:
def __init__(self, get_response):
self.get_response = get_response
def __call__(self, request):
start = len(connection.queries)
response = self.get_response(request)
end = len(connection.queries)
if end - start > 20: # порог
logging.warning(
"High query count: %d for %s",
end - start,
request.path,
)
return response
Шаг 4: Исключить внешние вызовы без timeout
import httpx
# Плохо: нет timeout — воркер может висеть 30+ секунд
response = httpx.get("https://external-api.com/data")
# Хорошо: явный timeout
response = httpx.get(
"https://external-api.com/data",
timeout=httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0),
)
Шаг 5: Профилировать в production без перезапуска
# py-spy: attach к воркеру без downtime
pip install py-spy
py-spy top --pid $(pgrep -f 'gunicorn: worker')
# Запись flame graph
py-spy record -o flame.svg --pid 12345 --duration 30
Шаг 6: Кэш и race condition
- Cache stampede: несколько запросов одновременно получают cache miss и бегут в БД. Решение — django-cache-lock или cache-aside с jitter на TTL.
- Проверить Redis:
redis-cli --latency-history -i 1— всплески латентности. - Eviction policy: если Redis заполнен и
maxmemory-policy = allkeys-lru, кэш постоянно инвалидируется.
Подводные камни
- Нестабильность часто связана с VACUUM в PostgreSQL: autovacuum захватывает ресурсы ночью или после массовых UPDATE — смотреть
pg_stat_user_tables.last_autovacuum. - Gunicorn worker recycling (--max-requests) вызывает кратковременные пики при перезапуске воркера под нагрузкой.
- GC-паузы в Python при большом heap — включить
gc.set_debug(gc.DEBUG_STATS)для проверки. - DNS-кэш в контейнере: если эндпоинт ходит во внешний сервис, TTL 0 у DNS-провайдера вызывает повторную резолюцию на каждый запрос.
- CONN_MAX_AGE=0 (дефолт) создаёт новое TCP-соединение на каждый запрос — накладные расходы на handshake заметны при высоком RPS.
- django-silk в production хранит все запросы в БД — само по себе замедляет сервис; использовать только точечно с фильтром по path.
- Таймаут Gunicorn (--timeout 30) убивает воркер без логирования traceback — ищите «WORKER TIMEOUT» в supervisor/systemd журнале.
- ORM lazy loading в async view:
await sync_to_async(lambda: list(qs))()запускается в отдельном потоке — при высоком параллелизме создаёт очередь из-за ограниченного thread pool.
What hurts your answer
- Сразу обвинять Django, не проверив соседние слои системы
- Чинить симптом без минимального воспроизведения и evidence
- Не учитывать версии, конфигурацию, окружение и recent changes
What they're listening for
- Умеет локализовать проблему вокруг Django
- Двигается от симптома к гипотезам и проверкам
- Отличает баг инструмента от ошибки использования или окружения