NumPyJuniorCoding

Чем отличаются np.concatenate(), np.vstack(), np.hstack() и np.stack()?

concatenate/vstack/hstack работают с существующими осями (axis=0 или axis=1), тогда как stack создаёт новую ось — его используют для сборки батча из одинаковых тензоров. Главная ловушка: hstack на 1D-массивах работает как concatenate, а не как vstack.

Ключевое различие: новая ось или существующая

Все четыре функции объединяют массивы, но принципиально расходятся в одном: np.stack() создаёт новую ось, остальные три работают с существующими осями.

np.concatenate()

Базовая функция. Принимает список массивов и параметр axis (по умолчанию 0). Массивы должны совпадать по всем осям, кроме оси конкатенации.

import numpy as np

a = np.ones((3, 4))
b = np.ones((2, 4))
c = np.concatenate([a, b], axis=0)   # shape (5, 4)

a2 = np.ones((3, 4))
b2 = np.ones((3, 2))
c2 = np.concatenate([a2, b2], axis=1)  # shape (3, 6)

np.vstack() — вертикальное соединение

Эквивалент concatenate(axis=0) после приведения 1D-массивов к строкам (shape (1, N)). Удобен для соединения векторов-строк.

v1 = np.array([1, 2, 3])   # shape (3,)
v2 = np.array([4, 5, 6])   # shape (3,)
result = np.vstack([v1, v2])   # shape (2, 3)
# эквивалентно concatenate([v1[None,:], v2[None,:]], axis=0)

np.hstack() — горизонтальное соединение

Для 2D и выше — concatenate(axis=1). Для 1D-массивов — concatenate(axis=0) (в отличие от vstack).

h1 = np.array([[1], [2], [3]])   # shape (3, 1)
h2 = np.array([[4], [5], [6]])   # shape (3, 1)
result = np.hstack([h1, h2])     # shape (3, 2)

# 1D-случай (ловушка!)
v = np.array([1, 2])
np.hstack([v, v])   # [1 2 1 2] — 1D конкатенация, не (2,2)

np.stack() — новая ось

Все входные массивы должны иметь одинаковый shape. Создаёт новую ось в позиции axis.

frames = [np.random.rand(224, 224, 3) for _ in range(8)]
batch = np.stack(frames, axis=0)   # shape (8, 224, 224, 3)
# vs concatenate — дало бы (1792, 224, 3)

# axis=1: соединить вдоль второй оси
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.stack([a, b], axis=1)  # shape (3, 2) — попарно

Сравнительная таблица поведения

  • concatenate: гибкий axis, нет ограничений на shape (кроме выбранной оси) — базовый выбор.
  • vstack: специализирован для «добавить строки», обрабатывает 1D как строку.
  • hstack: специализирован для «добавить колонки», но у 1D работает как concatenate.
  • stack: единственный, кто создаёт новую ось — используйте при сборке батча из одинаковых тензоров.

Подводные камни

  • hstack на 1D ведёт себя как concatenate, а не как vstack — интуиция обманывает.
  • stack требует одинакового shape всех входов; при разных shape — ValueError без понятного сообщения.
  • Все три (кроме stack) создают копию данных — при частом вызове в цикле это O(n²) аллокаций; лучше собирать в список и вызвать concatenate один раз.
  • axis=-1 в stack создаёт новую последнюю ось — удобно для channel-last форматов изображений, но неочевидно читается.
  • dtype upcast: при смешивании int32 и float64 NumPy автоматически апкастит к float64 — память растёт незаметно.
  • vstack на 2D ничем не отличается от concatenate(axis=0) — разница только для 1D; использование vstack на 2D только снижает читаемость.
  • Производительность: предпочитайте np.empty + срезы вместо итеративных concatenate для больших массивов.

Common mistakes

  • Объяснять concatenate stack helpers только синтаксисом без shape, dtype, состояния или режима выполнения.
  • Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
  • Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.

What the interviewer is testing

  • Может ли связать concatenate stack helpers с реальным контрактом входов и выходов.
  • Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
  • Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.

Sources

Related topics