scikit-learnMiddleAlgorithms

Как SVC в scikit-learn обрабатывает нелинейные данные (kernel trick)?

SVC решает задачу классификации, находя разделяющую гиперплоскость с максимальным отступом. Kernel trick позволяет неявно работать в пространстве высокой размерности через функцию ядра, без явного вычисления трансформации.

Линейный SVM и его ограничения

Линейный SVM ищет гиперплоскость w·x + b = 0, максимизирующую отступ между классами. Для нелинейно разделимых данных это невозможно — классы нельзя разделить прямой линией (или гиперплоскостью) в исходном пространстве.

Kernel Trick: идея

Вместо явного перевода данных в пространство высокой (или бесконечной) размерности через функцию φ(x), ядровая функция K(x_i, x_j) = φ(x_i) · φ(x_j) вычисляет скалярное произведение в новом пространстве, используя только исходные признаки. Алгоритм SVM работает через скалярные произведения (dual form), поэтому замена x_i · x_j на K(x_i, x_j) эффективно переносит его в пространство высокой размерности.

Доступные ядра в SVC

  • kernel='linear': K(x, y) = x · y. Для линейно разделимых задач; при большом числе признаков эффективнее LinearSVC.
  • kernel='rbf' (Radial Basis Function): K(x, y) = exp(-γ||x-y||²). Бесконечномерное пространство, универсален для большинства нелинейных задач. Параметр gamma контролирует ширину гауссианы.
  • kernel='poly': K(x, y) = (γx·y + r)^d. Полиномиальное ядро, параметры degree, coef0. Менее популярен из-за числовых проблем при высокой степени.
  • kernel='sigmoid': K(x, y) = tanh(γx·y + r). Аналог нейронной сети, работает хуже RBF в большинстве случаев.

Практический пример

import numpy as np
from sklearn.svm import SVC
from sklearn.datasets import make_moons, make_circles
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt

# Нелинейно разделимые данные
X, y = make_moons(n_samples=500, noise=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# SVC с RBF kernel — стандартный выбор для нелинейных задач
pipe = Pipeline([
    ('scaler', StandardScaler()),  # обязательно для SVC!
    ('svc', SVC(kernel='rbf', C=1.0, gamma='scale', probability=True))
])
pipe.fit(X_train, y_train)
print(classification_report(y_test, pipe.predict(X_test)))

# Подбор гиперпараметров C и gamma
param_grid = {
    'svc__C': [0.1, 1, 10, 100],
    'svc__gamma': ['scale', 'auto', 0.001, 0.01, 0.1]
}
grid = GridSearchCV(pipe, param_grid, cv=5, scoring='roc_auc', n_jobs=-1)
grid.fit(X_train, y_train)
print('Best params:', grid.best_params_)
print('Best ROC-AUC:', grid.best_score_)

# Сравнение разных ядер
kernels = ['linear', 'rbf', 'poly', 'sigmoid']
for kernel in kernels:
    svc = Pipeline([
        ('scaler', StandardScaler()),
        ('svc', SVC(kernel=kernel, C=1.0))
    ])
    svc.fit(X_train, y_train)
    acc = svc.score(X_test, y_test)
    print(f'kernel={kernel}: accuracy={acc:.3f}')

Параметры C и gamma

# C — параметр регуляризации (обратный к силе регуляризации)
# Малое C: широкий отступ, больше ошибок на train (underfitting)
# Большое C: узкий отступ, мало ошибок на train (overfitting)

# gamma='scale' (default): 1 / (n_features * X.var())
# gamma='auto': 1 / n_features
# Малое gamma: широкая гауссиана, гладкое решение (underfitting)
# Большое gamma: узкая гауссиана, сложное решение (overfitting)

from sklearn.svm import LinearSVC  # для линейного случая быстрее SVC(kernel='linear')
linear_svc = LinearSVC(C=1.0, max_iter=5000)

Подводные камни

  • SVC не масштабируется на большие датасеты — сложность O(n² до n³). При n > 10 000 используйте LinearSVC, SGDClassifier или аппроксимирующие ядра (Nystroem, RBFSampler).
  • Обязательное масштабирование признаков — SVC без StandardScaler/MinMaxScaler работает плохо, так как расстояния доминируются признаками с большим масштабом.
  • probability=True использует Platt Scaling (кросс-валидация внутри), что значительно замедляет обучение и меняет решение на границах.
  • RBF ядро с gamma=auto (1/n_features) даёт плохие результаты при многих признаках — gamma='scale' (1/(n_features * var)) почти всегда лучше.
  • SVC не выдаёт feature_importances или coef_ для нелинейных ядер — интерпретация через SHAP или permutation importance.
  • Обнаружение опорных векторов: svc.n_support_, svc.support_vectors_ — при большом их числе модель склонна к переобучению.

Common mistakes

  • Объяснять svc kernel trick только синтаксисом без shape, dtype, состояния или режима выполнения.
  • Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
  • Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.

What the interviewer is testing

  • Может ли связать svc kernel trick с реальным контрактом входов и выходов.
  • Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
  • Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.

Sources

Related topics