scikit-learnMiddleCoding

Что такое SelectKBest и как работает отбор признаков с chi2 или mutual information?

SelectKBest выбирает K лучших признаков по статистической мере. Chi2 работает с неотрицательными признаками и категориальной целевой переменной, mutual_info_classif/regression — универсальна и учитывает нелинейные зависимости.

SelectKBest — принцип работы

SelectKBest из sklearn.feature_selection вычисляет статистическую меру связи между каждым признаком и целевой переменной, затем отбирает K признаков с наивысшими оценками. Трансформер не учитывает взаимодействия между признаками — каждый признак оценивается независимо (univariate selection).

Основные функции оценки:

  • chi2 — хи-квадрат тест. Только для неотрицательных признаков (счётчики, TF-IDF) и классификации.
  • f_classif — ANOVA F-статистика. Для непрерывных признаков, классификация. Линейная зависимость.
  • mutual_info_classif — взаимная информация для классификации. Улавливает нелинейные зависимости.
  • f_regression — корреляция Пирсона. Только линейные зависимости, регрессия.
  • mutual_info_regression — взаимная информация для регрессии.

Chi2: когда и как применять

Хи-квадрат тест проверяет независимость признака и целевой переменной. Работает с категориальными или счётными признаками (например, частоты слов в тексте). Требование: все значения ≥ 0.

import numpy as np
from sklearn.feature_selection import SelectKBest, chi2, mutual_info_classif
from sklearn.datasets import load_breast_cancer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

X, y = load_breast_cancer(return_X_y=True)
feature_names = load_breast_cancer().feature_names

# Chi2 требует неотрицательных признаков — масштабируем MinMaxScaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

selector_chi2 = SelectKBest(chi2, k=10)
X_chi2 = selector_chi2.fit_transform(X_scaled, y)

scores_chi2 = selector_chi2.scores_
top_chi2 = feature_names[np.argsort(scores_chi2)[-10:][::-1]]
print('Top 10 chi2:', top_chi2)

# p-values для оценки значимости
pvalues = selector_chi2.pvalues_
print('P-values для топ признаков:', pvalues[np.argsort(scores_chi2)[-5:]])

Mutual Information: нелинейные зависимости

from sklearn.feature_selection import mutual_info_classif, SelectPercentile

# mutual_info_classif работает с любыми числовыми признаками
selector_mi = SelectKBest(mutual_info_classif, k=10)
X_mi = selector_mi.fit_transform(X, y)

mi_scores = selector_mi.scores_
top_mi = feature_names[np.argsort(mi_scores)[-10:][::-1]]
print('Top 10 MI:', top_mi)

# SelectPercentile: выбрать лучшие 20% признаков
selector_pct = SelectPercentile(mutual_info_classif, percentile=20)
X_pct = selector_pct.fit_transform(X, y)
print('Selected features count:', X_pct.shape[1])

# SelectFpr / SelectFdr — по p-value порогу
from sklearn.feature_selection import SelectFpr, f_classif
selector_fpr = SelectFpr(f_classif, alpha=0.01)  # FPR < 1%
X_fpr = selector_fpr.fit_transform(X, y)
print('FPR selected:', X_fpr.shape[1])

Интеграция в Pipeline

from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

pipe = Pipeline([
    ('scaler', MinMaxScaler()),
    ('selector', SelectKBest(mutual_info_classif)),
    ('clf', LogisticRegression(max_iter=1000, random_state=42))
])

# Оптимизация k через GridSearchCV
param_grid = {'selector__k': [5, 10, 15, 20, 'all']}
grid = GridSearchCV(pipe, param_grid, cv=5, scoring='roc_auc', n_jobs=-1)
grid.fit(X, y)

print('Best k:', grid.best_params_)
print('Best ROC-AUC:', grid.best_score_)

# Получить имена отобранных признаков
best_selector = grid.best_estimator_.named_steps['selector']
selected_names = feature_names[best_selector.get_support()]
print('Selected features:', selected_names)

Подводные камни

  • Chi2 нельзя применять к признакам с отрицательными значениями — StandardScaler создаёт отрицательные значения, нужен MinMaxScaler.
  • mutual_info_classif стохастичен (зависит от random_state) и медленнее chi2/f_classif — для больших датасетов это критично.
  • Univariate selection игнорирует взаимодействия признаков: два слабых признака в паре могут быть мощными — рассмотрите RFE или SelectFromModel.
  • fit_transform на полном датасете до train/test split — утечка данных; используйте только в Pipeline.
  • k='all' в GridSearchCV корректно работает только при явном указании в param_grid; убедитесь, что Pipeline принимает строку 'all'.
  • F-статистика (f_classif) предполагает нормальное распределение признаков — на бинарных или категориальных признаках даёт неверные результаты.
  • Отбор признаков может ухудшить модель, если важные признаки коррелированы с менее важными — всегда проверяйте через кросс-валидацию.

Common mistakes

  • Объяснять selectkbest feature selection только синтаксисом без shape, dtype, состояния или режима выполнения.
  • Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
  • Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.

What the interviewer is testing

  • Может ли связать selectkbest feature selection с реальным контрактом входов и выходов.
  • Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
  • Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.

Sources

Related topics