Чем отличаются np.concatenate(), np.vstack(), np.hstack() и np.stack()?
concatenate/vstack/hstack работают с существующими осями (axis=0 или axis=1), тогда как stack создаёт новую ось — его используют для сборки батча из одинаковых тензоров. Главная ловушка: hstack на 1D-массивах работает как concatenate, а не как vstack.
Ключевое различие: новая ось или существующая
Все четыре функции объединяют массивы, но принципиально расходятся в одном: np.stack() создаёт новую ось, остальные три работают с существующими осями.
np.concatenate()
Базовая функция. Принимает список массивов и параметр axis (по умолчанию 0). Массивы должны совпадать по всем осям, кроме оси конкатенации.
import numpy as np
a = np.ones((3, 4))
b = np.ones((2, 4))
c = np.concatenate([a, b], axis=0) # shape (5, 4)
a2 = np.ones((3, 4))
b2 = np.ones((3, 2))
c2 = np.concatenate([a2, b2], axis=1) # shape (3, 6)
np.vstack() — вертикальное соединение
Эквивалент concatenate(axis=0) после приведения 1D-массивов к строкам (shape (1, N)). Удобен для соединения векторов-строк.
v1 = np.array([1, 2, 3]) # shape (3,)
v2 = np.array([4, 5, 6]) # shape (3,)
result = np.vstack([v1, v2]) # shape (2, 3)
# эквивалентно concatenate([v1[None,:], v2[None,:]], axis=0)
np.hstack() — горизонтальное соединение
Для 2D и выше — concatenate(axis=1). Для 1D-массивов — concatenate(axis=0) (в отличие от vstack).
h1 = np.array([[1], [2], [3]]) # shape (3, 1)
h2 = np.array([[4], [5], [6]]) # shape (3, 1)
result = np.hstack([h1, h2]) # shape (3, 2)
# 1D-случай (ловушка!)
v = np.array([1, 2])
np.hstack([v, v]) # [1 2 1 2] — 1D конкатенация, не (2,2)
np.stack() — новая ось
Все входные массивы должны иметь одинаковый shape. Создаёт новую ось в позиции axis.
frames = [np.random.rand(224, 224, 3) for _ in range(8)]
batch = np.stack(frames, axis=0) # shape (8, 224, 224, 3)
# vs concatenate — дало бы (1792, 224, 3)
# axis=1: соединить вдоль второй оси
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.stack([a, b], axis=1) # shape (3, 2) — попарно
Сравнительная таблица поведения
concatenate: гибкий axis, нет ограничений на shape (кроме выбранной оси) — базовый выбор.vstack: специализирован для «добавить строки», обрабатывает 1D как строку.hstack: специализирован для «добавить колонки», но у 1D работает как concatenate.stack: единственный, кто создаёт новую ось — используйте при сборке батча из одинаковых тензоров.
Подводные камни
- hstack на 1D ведёт себя как concatenate, а не как vstack — интуиция обманывает.
- stack требует одинакового shape всех входов; при разных shape — ValueError без понятного сообщения.
- Все три (кроме stack) создают копию данных — при частом вызове в цикле это O(n²) аллокаций; лучше собирать в список и вызвать concatenate один раз.
- axis=-1 в stack создаёт новую последнюю ось — удобно для channel-last форматов изображений, но неочевидно читается.
- dtype upcast: при смешивании int32 и float64 NumPy автоматически апкастит к float64 — память растёт незаметно.
- vstack на 2D ничем не отличается от concatenate(axis=0) — разница только для 1D; использование vstack на 2D только снижает читаемость.
- Производительность: предпочитайте
np.empty+ срезы вместо итеративных concatenate для больших массивов.
Common mistakes
- Объяснять
concatenate stack helpersтолько синтаксисом без shape, dtype, состояния или режима выполнения. - Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
- Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.
What the interviewer is testing
- Может ли связать
concatenate stack helpersс реальным контрактом входов и выходов. - Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
- Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.