NumPyMiddleTechnical
Что такое fancy indexing в NumPy и чем он отличается от индексирования срезами?
Срезы (arr[1:4]) возвращают view — разделяют буфер с оригиналом, O(1). Fancy indexing (массив целых или булевых индексов) всегда создаёт копию, позволяет произвольный выбор и повторы. Запись через срез мутирует оригинал; arr[[0,0]] += 1 прибавит 1 только один раз.
Срезы (slicing) — view, без копии
Срез arr[start:stop:step] возвращает view: объект, разделяющий буфер данных с оригиналом. Изменение элементов через срез меняет оригинал. Срезы работают только с непрерывными диапазонами и фиксированным шагом — произвольный выбор элементов невозможен.
import numpy as np
x = np.array([10, 20, 30, 40, 50, 60])
# Срез → view
s = x[1:4] # [20 30 40]
s[0] = 99
print(x) # [10 99 30 40 50 60] — оригинал изменился!
print(s.base is x) # True
# 2D срез → тоже view
M = np.arange(12).reshape(3, 4)
block = M[0:2, 1:3] # shape (2, 2), view
block[:] = 0
print(M) # первые две строки, столбцы 1-2 — нули
Fancy indexing — всегда копия
Fancy indexing — индексирование через массив целых чисел или булевых значений. Позволяет выбирать произвольные элементы в любом порядке, включая повторы. Всегда создаёт копию данных.
x = np.array([10, 20, 30, 40, 50])
# Integer array indexing → копия
idx = [0, 3, 1, 1] # повторы разрешены
f = x[idx] # [10 40 20 20]
f[0] = 999
print(x[0]) # 10 — оригинал не изменился
print(f.base is None) # True — копия
# Boolean indexing → копия
mask = x > 25
b = x[mask] # [30 40 50]
b[0] = 0
print(x) # [10 20 30 40 50] — не изменился
# 2D fancy indexing — выбор строк
M = np.arange(12).reshape(4, 3)
rows = M[[0, 2, 3]] # shape (3, 3), копия
# Запись через fancy indexing работает
x[[1, 3]] = [-1, -2] # изменяет оригинал при присваивании
Сравнение: shape результата
M = np.arange(20).reshape(4, 5)
# Срез: shape предсказуем
print(M[1:3, 2:4].shape) # (2, 2)
# Integer fancy indexing: shape = shape индексного массива
rows = np.array([[0, 1], [2, 3]])
print(M[rows, 2].shape) # (2, 2) — shape как у rows
# Два массива-индекса: zip-like поведение
r = [0, 1, 2]
c = [4, 3, 2]
print(M[r, c]) # [M[0,4], M[1,3], M[2,2]] — 1D, не 2D-матрица!
Практические паттерны
- Срез: нарезка батча, скользящее окно, in-place нормализация части массива — когда нужна экономия памяти.
- Fancy indexing для перестановки:
X[np.random.permutation(len(X))]— shuffle датасета. - Boolean mask для фильтрации:
X[y == 1]— выборка класса,X[~np.isnan(X).any(axis=1)]— удаление строк с NaN. - Запись через fancy indexing:
arr[idx] = 0— обнуление выбранных позиций (scatter-операция).
Подводные камни
- Запись через срез мутирует оригинал:
a[1:3] *= 2изменяет a — частая ошибка при передаче срезов в функции. - Fancy indexing при записи работает иначе:
a[[0,0]] += 1прибавит 1 только один раз (не два), потому что операция scatter не атомарна — используйтеnp.add.at(a, [0,0], 1). - Два массива-индекса дают zip, не сетку:
M[[0,1], [2,3]]— два элемента, а не блок 2×2. Для сетки нуженnp.ix_([0,1], [2,3]). - Fancy indexing всегда копирует: применение в hot-path (например, в каждом шаге обучения) создаёт лишнее давление на GC и память.
- Boolean mask из другого shape: если маска и массив не совпадают по shape, NumPy бросает IndexError или делает неожиданный broadcast.
- Производительность: срез работает за O(1), fancy indexing — за O(k), где k — количество выбранных элементов.
Common mistakes
- Объяснять
fancy indexing vs slicingтолько синтаксисом без shape, dtype, состояния или режима выполнения. - Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
- Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.
What the interviewer is testing
- Может ли связать
fancy indexing vs slicingс реальным контрактом входов и выходов. - Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
- Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.