Таблица 500 ГБ, нужно добавить колонку с дефолтом. Как сделать без блокировки на часы?
В PostgreSQL 11+ константный DEFAULT при ADD COLUMN не переписывает таблицу (fast default), но кратко берёт AccessExclusiveLock на метаданные. Для volatile default или NOT NULL на существующих строках — staged migration: nullable колонка + батчевый backfill + SET DEFAULT + constraint NOT VALID/VALIDATE.
Почему ADD COLUMN с DEFAULT опасен на большой таблице
До PostgreSQL 11: любой ADD COLUMN ... DEFAULT ... переписывал всю таблицу (table rewrite) с AccessExclusiveLock на всё время операции. На 500 ГБ это часы простоя.
С PostgreSQL 11+: если DEFAULT — константное неизменяемое значение (не NOW(), не gen_random_uuid()), PostgreSQL использует «fast default» — значение хранится в системном каталоге, а не записывается в каждую строку. AccessExclusiveLock нужен только на обновление метаданных (миллисекунды). Но volatile default всё ещё вызывает full table rewrite.
Сценарий 1 — константный DEFAULT (PostgreSQL 11+)
-- Безопасно: fast default, без rewrite таблицы
-- Всё равно используем lock_timeout как страховку
SET lock_timeout = '2s';
ALTER TABLE orders ADD COLUMN retry_count integer DEFAULT 0 NOT NULL;
-- Если таймаут истёк — retry через несколько секунд
Сценарий 2 — volatile DEFAULT или сложная логика (staged migration)
-- ШАГ 1: добавляем nullable колонку без default — мгновенно
SET lock_timeout = '2s';
ALTER TABLE orders ADD COLUMN external_id uuid;
-- ШАГ 2: batched backfill — коммитим маленькими порциями
-- Запускать как отдельный скрипт, не в одной транзакции!
DO $$
DECLARE
batch_size int := 10000;
last_id bigint := 0;
max_id bigint;
BEGIN
SELECT max(id) INTO max_id FROM orders;
WHILE last_id < max_id LOOP
UPDATE orders
SET external_id = gen_random_uuid()
WHERE id > last_id AND id <= last_id + batch_size
AND external_id IS NULL;
last_id := last_id + batch_size;
COMMIT; -- освобождаем lock после каждого батча
PERFORM pg_sleep(0.05); -- throttle, чтобы не давить реплику
END LOOP;
END;
$$;
-- ШАГ 3: выставить DEFAULT для новых строк
SET lock_timeout = '2s';
ALTER TABLE orders ALTER COLUMN external_id SET DEFAULT gen_random_uuid();
-- ШАГ 4: NOT NULL constraint через NOT VALID (не сканирует старые строки)
SET lock_timeout = '2s';
ALTER TABLE orders ADD CONSTRAINT orders_external_id_not_null
CHECK (external_id IS NOT NULL) NOT VALID;
-- ШАГ 5: VALIDATE (ShareUpdateExclusiveLock — не блокирует DML)
ALTER TABLE orders VALIDATE CONSTRAINT orders_external_id_not_null;
-- ШАГ 6: после успешного validate можно заменить на настоящий NOT NULL
-- (только если уверены, что все строки заполнены)
SET lock_timeout = '2s';
ALTER TABLE orders ALTER COLUMN external_id SET NOT NULL;
ALTER TABLE orders DROP CONSTRAINT orders_external_id_not_null;
Rolling deploy совместимость
Старый код должен пережить наличие нового nullable столбца (просто игнорирует). Новый код должен корректно обрабатывать NULL в external_id до завершения backfill. Деплой нового кода — только после завершения всех шагов миграции.
Подводные камни
- Один огромный UPDATE вместо батчей — WAL storm. UPDATE 500 ГБ таблицы в одной транзакции создаст огромный WAL, реплики отстанут на часы, autovacuum не успеет за bloat. Всегда бейте на батчи с COMMIT между ними.
- Volatile DEFAULT всё ещё вызывает table rewrite.
DEFAULT NOW(),DEFAULT gen_random_uuid(),DEFAULT nextval(...)— всё это volatile в PostgreSQL 11+ и вызывает полный rewrite. Только literal-константы безопасны. - NOT NULL без NOT VALID берёт долгую блокировку.
ALTER TABLE ... SET NOT NULLсканирует всю таблицу под AccessExclusiveLock. Используйте CHECK ... NOT VALID + VALIDATE CONSTRAINT. - lock_timeout без retry ломает деплой. Если
lock_timeoutистёк, миграционный инструмент (Alembic, Flyway) может упасть. Добавьте retry-логику или выставляйтеlock_timeoutв начале скрипта миграции. - Autovacuum не справляется с bloat от backfill. После батчевого UPDATE dead tuples накапливаются быстрее, чем autovacuum успевает их убирать. Запустите
VACUUM ANALYZE ordersпосле backfill. - Replica lag и replikation slots. Батчевый backfill даже с pg_sleep может создать задержку на репликах. Если есть replication slot, WAL не будет удалён до обработки репликой — следите за
pg_replication_slots. - Несовместимость кода с NULL в период backfill. Если приложение ожидает NOT NULL но колонка ещё null — runtime errors. Проектируйте staged rollout: сначала код, понимающий NULL, затем миграция, затем код, требующий NOT NULL.
- Проверить тип default перед prod. Протестируйте на dev/staging с
EXPLAINили\d+ tablename— убедитесь, что pg_attribute.atthasdef и attgenerated выглядят как ожидается.
Common mistakes
- Не учитывать оптимизацию PG 11+.
- Делать один большой backfill UPDATE.
- Добавлять NOT NULL без staged validation.
What the interviewer is testing
- Просит версионную оговорку.
- Проверяет lock_timeout и batching.
- Уточняет rolling deploy compatibility.