NumPyMiddleTechnical

Что такое fancy indexing в NumPy и чем он отличается от индексирования срезами?

Срезы (arr[1:4]) возвращают view — разделяют буфер с оригиналом, O(1). Fancy indexing (массив целых или булевых индексов) всегда создаёт копию, позволяет произвольный выбор и повторы. Запись через срез мутирует оригинал; arr[[0,0]] += 1 прибавит 1 только один раз.

Срезы (slicing) — view, без копии

Срез arr[start:stop:step] возвращает view: объект, разделяющий буфер данных с оригиналом. Изменение элементов через срез меняет оригинал. Срезы работают только с непрерывными диапазонами и фиксированным шагом — произвольный выбор элементов невозможен.

import numpy as np

x = np.array([10, 20, 30, 40, 50, 60])

# Срез → view
s = x[1:4]        # [20 30 40]
s[0] = 99
print(x)          # [10 99 30 40 50 60] — оригинал изменился!
print(s.base is x)  # True

# 2D срез → тоже view
M = np.arange(12).reshape(3, 4)
block = M[0:2, 1:3]   # shape (2, 2), view
block[:] = 0
print(M)   # первые две строки, столбцы 1-2 — нули

Fancy indexing — всегда копия

Fancy indexing — индексирование через массив целых чисел или булевых значений. Позволяет выбирать произвольные элементы в любом порядке, включая повторы. Всегда создаёт копию данных.

x = np.array([10, 20, 30, 40, 50])

# Integer array indexing → копия
idx = [0, 3, 1, 1]      # повторы разрешены
f = x[idx]              # [10 40 20 20]
f[0] = 999
print(x[0])             # 10 — оригинал не изменился
print(f.base is None)   # True — копия

# Boolean indexing → копия
mask = x > 25
b = x[mask]             # [30 40 50]
b[0] = 0
print(x)                # [10 20 30 40 50] — не изменился

# 2D fancy indexing — выбор строк
M = np.arange(12).reshape(4, 3)
rows = M[[0, 2, 3]]     # shape (3, 3), копия

# Запись через fancy indexing работает
x[[1, 3]] = [-1, -2]   # изменяет оригинал при присваивании

Сравнение: shape результата

M = np.arange(20).reshape(4, 5)

# Срез: shape предсказуем
print(M[1:3, 2:4].shape)    # (2, 2)

# Integer fancy indexing: shape = shape индексного массива
rows = np.array([[0, 1], [2, 3]])
print(M[rows, 2].shape)     # (2, 2) — shape как у rows

# Два массива-индекса: zip-like поведение
r = [0, 1, 2]
c = [4, 3, 2]
print(M[r, c])   # [M[0,4], M[1,3], M[2,2]] — 1D, не 2D-матрица!

Практические паттерны

  • Срез: нарезка батча, скользящее окно, in-place нормализация части массива — когда нужна экономия памяти.
  • Fancy indexing для перестановки: X[np.random.permutation(len(X))] — shuffle датасета.
  • Boolean mask для фильтрации: X[y == 1] — выборка класса, X[~np.isnan(X).any(axis=1)] — удаление строк с NaN.
  • Запись через fancy indexing: arr[idx] = 0 — обнуление выбранных позиций (scatter-операция).

Подводные камни

  • Запись через срез мутирует оригинал: a[1:3] *= 2 изменяет a — частая ошибка при передаче срезов в функции.
  • Fancy indexing при записи работает иначе: a[[0,0]] += 1 прибавит 1 только один раз (не два), потому что операция scatter не атомарна — используйте np.add.at(a, [0,0], 1).
  • Два массива-индекса дают zip, не сетку: M[[0,1], [2,3]] — два элемента, а не блок 2×2. Для сетки нужен np.ix_([0,1], [2,3]).
  • Fancy indexing всегда копирует: применение в hot-path (например, в каждом шаге обучения) создаёт лишнее давление на GC и память.
  • Boolean mask из другого shape: если маска и массив не совпадают по shape, NumPy бросает IndexError или делает неожиданный broadcast.
  • Производительность: срез работает за O(1), fancy indexing — за O(k), где k — количество выбранных элементов.

Common mistakes

  • Объяснять fancy indexing vs slicing только синтаксисом без shape, dtype, состояния или режима выполнения.
  • Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
  • Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.

What the interviewer is testing

  • Может ли связать fancy indexing vs slicing с реальным контрактом входов и выходов.
  • Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
  • Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.

Sources

Related topics