scikit-learnMiddleCoding
Что такое SelectKBest и как работает отбор признаков с chi2 или mutual information?
SelectKBest выбирает K лучших признаков по статистической мере. Chi2 работает с неотрицательными признаками и категориальной целевой переменной, mutual_info_classif/regression — универсальна и учитывает нелинейные зависимости.
SelectKBest — принцип работы
SelectKBest из sklearn.feature_selection вычисляет статистическую меру связи между каждым признаком и целевой переменной, затем отбирает K признаков с наивысшими оценками. Трансформер не учитывает взаимодействия между признаками — каждый признак оценивается независимо (univariate selection).
Основные функции оценки:
chi2— хи-квадрат тест. Только для неотрицательных признаков (счётчики, TF-IDF) и классификации.f_classif— ANOVA F-статистика. Для непрерывных признаков, классификация. Линейная зависимость.mutual_info_classif— взаимная информация для классификации. Улавливает нелинейные зависимости.f_regression— корреляция Пирсона. Только линейные зависимости, регрессия.mutual_info_regression— взаимная информация для регрессии.
Chi2: когда и как применять
Хи-квадрат тест проверяет независимость признака и целевой переменной. Работает с категориальными или счётными признаками (например, частоты слов в тексте). Требование: все значения ≥ 0.
import numpy as np
from sklearn.feature_selection import SelectKBest, chi2, mutual_info_classif
from sklearn.datasets import load_breast_cancer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
X, y = load_breast_cancer(return_X_y=True)
feature_names = load_breast_cancer().feature_names
# Chi2 требует неотрицательных признаков — масштабируем MinMaxScaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
selector_chi2 = SelectKBest(chi2, k=10)
X_chi2 = selector_chi2.fit_transform(X_scaled, y)
scores_chi2 = selector_chi2.scores_
top_chi2 = feature_names[np.argsort(scores_chi2)[-10:][::-1]]
print('Top 10 chi2:', top_chi2)
# p-values для оценки значимости
pvalues = selector_chi2.pvalues_
print('P-values для топ признаков:', pvalues[np.argsort(scores_chi2)[-5:]])
Mutual Information: нелинейные зависимости
from sklearn.feature_selection import mutual_info_classif, SelectPercentile
# mutual_info_classif работает с любыми числовыми признаками
selector_mi = SelectKBest(mutual_info_classif, k=10)
X_mi = selector_mi.fit_transform(X, y)
mi_scores = selector_mi.scores_
top_mi = feature_names[np.argsort(mi_scores)[-10:][::-1]]
print('Top 10 MI:', top_mi)
# SelectPercentile: выбрать лучшие 20% признаков
selector_pct = SelectPercentile(mutual_info_classif, percentile=20)
X_pct = selector_pct.fit_transform(X, y)
print('Selected features count:', X_pct.shape[1])
# SelectFpr / SelectFdr — по p-value порогу
from sklearn.feature_selection import SelectFpr, f_classif
selector_fpr = SelectFpr(f_classif, alpha=0.01) # FPR < 1%
X_fpr = selector_fpr.fit_transform(X, y)
print('FPR selected:', X_fpr.shape[1])
Интеграция в Pipeline
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
pipe = Pipeline([
('scaler', MinMaxScaler()),
('selector', SelectKBest(mutual_info_classif)),
('clf', LogisticRegression(max_iter=1000, random_state=42))
])
# Оптимизация k через GridSearchCV
param_grid = {'selector__k': [5, 10, 15, 20, 'all']}
grid = GridSearchCV(pipe, param_grid, cv=5, scoring='roc_auc', n_jobs=-1)
grid.fit(X, y)
print('Best k:', grid.best_params_)
print('Best ROC-AUC:', grid.best_score_)
# Получить имена отобранных признаков
best_selector = grid.best_estimator_.named_steps['selector']
selected_names = feature_names[best_selector.get_support()]
print('Selected features:', selected_names)
Подводные камни
- Chi2 нельзя применять к признакам с отрицательными значениями — StandardScaler создаёт отрицательные значения, нужен MinMaxScaler.
mutual_info_classifстохастичен (зависит отrandom_state) и медленнее chi2/f_classif — для больших датасетов это критично.- Univariate selection игнорирует взаимодействия признаков: два слабых признака в паре могут быть мощными — рассмотрите RFE или SelectFromModel.
fit_transformна полном датасете до train/test split — утечка данных; используйте только в Pipeline.k='all'в GridSearchCV корректно работает только при явном указании вparam_grid; убедитесь, что Pipeline принимает строку'all'.- F-статистика (
f_classif) предполагает нормальное распределение признаков — на бинарных или категориальных признаках даёт неверные результаты. - Отбор признаков может ухудшить модель, если важные признаки коррелированы с менее важными — всегда проверяйте через кросс-валидацию.
Common mistakes
- Объяснять
selectkbest feature selectionтолько синтаксисом без shape, dtype, состояния или режима выполнения. - Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
- Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.
What the interviewer is testing
- Может ли связать
selectkbest feature selectionс реальным контрактом входов и выходов. - Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
- Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.