gRPC-GoSeniorExperience

Представьте, после изменения gRPC-Go сборка, runtime или интеграция стали нестабильными. Как вы будете расследовать проблему?

Последовательно проверяйте: согласованность версий в go.mod, пересборку generated code, наличие race condition через go test -race, breaking changes в CHANGELOG, и используйте git bisect с автоматическим тестом для точной локализации изменения.

Расследование нестабильности после изменения gRPC-Go

Нестабильность после изменения может проявляться в трёх формах: сборка не проходит, runtime падает или паникует, интеграция ведёт себя непредсказуемо. Каждый случай требует своего подхода.

Нестабильность сборки

Сначала проверьте согласованность зависимостей. Обновление grpc-go часто требует одновременного обновления google.golang.org/protobuf и связанных пакетов.

# Покажет конфликты версий
go mod graph | grep -E 'google.golang.org/(grpc|protobuf)'

# Обновите согласованно
go get google.golang.org/grpc@latest
go get google.golang.org/protobuf@latest
go mod tidy

# Проверьте на ошибки импорта
go build ./...

Если ошибка связана с generated code (например, protoc-gen-go-grpc сгенерировал код под старый API), пересгенерируйте .pb.go файлы:

buf generate
# или
protoc --go_out=. --go-grpc_out=. proto/*.proto

Паники и runtime-ошибки

При panics первым делом включите full stack trace и проверьте, в каком goroutine паника:

GOTRACEBACK=all go run ./cmd/server 2>&1 | tee /tmp/panic.log

Паника в goroutine с префиксом google.golang.org/grpc — это баг в самой библиотеке или её некорректное использование. Паника в вашем коде внутри interceptor или handler — ваша ответственность. Добавьте recovery-interceptor:

func recoveryInterceptor(ctx context.Context, req interface{},
  info *grpc.UnaryServerInfo, handler grpc.UnaryHandler) (resp interface{}, err error) {
  defer func() {
    if r := recover(); r != nil {
      debug.PrintStack()
      err = status.Errorf(codes.Internal, "panic: %v", r)
    }
  }()
  return handler(ctx, req)
}

Нестабильность интеграции

Интеграционная нестабильность (flaky tests, intermittent errors) чаще всего вызвана race conditions. Запустите с детектором гонок:

go test -race ./...
go run -race ./cmd/server

Следующий шаг — проверка breaking changes в changelog grpc-go. Изменения в API часто документированы:

git log --oneline v1.63.0..v1.64.0 -- . # если работаете с форком
curl https://raw.githubusercontent.com/grpc/grpc-go/master/CHANGELOG.md | head -200

Бинарный поиск для локализации изменения

Если нестабильность появилась после серии коммитов, используйте git bisect с автоматическим тестом:

git bisect start
git bisect bad HEAD
git bisect good <known-good-commit>
git bisect run sh -c 'go build ./... && go test -count=3 ./... -run TestIntegration'

Профилирование для выявления деградации производительности

// Запустите pprof endpoint в сервере
import _ "net/http/pprof"

go func() {
  log.Println(http.ListenAndServe("localhost:6060", nil))
}()
# Снимите профиль до и после
go tool pprof http://localhost:6060/debug/pprof/heap > before.pb
# После изменения:
go tool pprof http://localhost:6060/debug/pprof/heap > after.pb
go tool pprof -diff_base before.pb after.pb

Проверка изменений в generated code

Generated .pb.go файлы должны быть пересозданы при обновлении protoc-gen-go-grpc. Несовпадение версий плагина и runtime — источник subtle bugs:

# Зафиксируйте версии плагинов в tools.go
cat tools.go
// go:build tools
package tools
import (
  _ "google.golang.org/grpc/cmd/protoc-gen-go-grpc"
  _ "google.golang.org/protobuf/cmd/protoc-gen-go"
)

Подводные камни

  • go mod tidy может молча downgrade транзитивные зависимости — после него всегда запускайте полный тест-сюит, не только сборку.
  • Generated код (.pb.go) в git может расходиться с версией protoc-плагина на CI — добавьте шаг проверки через buf lint и buf breaking в пайплайн.
  • -race детектор увеличивает латентность в 5–10 раз — не используйте его в production, только в тестах и локально.
  • Изменение в ServiceConfig (retry policy, load balancing) вступает в силу не мгновенно — клиент кэширует конфигурацию и обновляет её при переподключении.
  • codes.Unavailable после обновления может означать, что сервер ещё не поднялся, а не баг в библиотеке — добавьте wait-for-ready в тесты.
  • Interceptor-цепочка применяется в строго определённом порядке — изменение порядка регистрации в grpc.NewServer(...) ломает поведение без очевидной ошибки.
  • Изменение дефолтного значения MaxConcurrentStreams в новой версии grpc-go может неожиданно ограничить пропускную способность под нагрузкой.
  • При обновлении grpc-go проверяйте CHANGELOG на изменения в экспериментальных API (пакет experimental/) — они меняются без соблюдения semver.

What hurts your answer

  • Сразу обвинять gRPC-Go, не проверив соседние слои системы
  • Чинить симптом без минимального воспроизведения и evidence
  • Не учитывать версии, конфигурацию, окружение и recent changes

What they're listening for

  • Умеет локализовать проблему вокруг gRPC-Go
  • Двигается от симптома к гипотезам и проверкам
  • Отличает баг инструмента от ошибки использования или окружения

Related topics