Что такое `SelectKBest` и как работает отбор признаков с chi2 или mutual information?

Question

Accepted Answer

SelectKBest — принцип работы

SelectKBest из sklearn.feature_selection вычисляет статистическую меру связи между каждым признаком и целевой переменной, затем отбирает K признаков с наивысшими оценками. Трансформер не учитывает взаимодействия между признаками — каждый признак оценивается независимо (univariate selection).

Основные функции оценки:

chi2 — хи-квадрат тест. Только для неотрицательных признаков (счётчики, TF-IDF) и классификации.
f_classif — ANOVA F-статистика. Для непрерывных признаков, классификация. Линейная зависимость.
mutual_info_classif — взаимная информация для классификации. Улавливает нелинейные зависимости.
f_regression — корреляция Пирсона. Только линейные зависимости, регрессия.
mutual_info_regression — взаимная информация для регрессии.

Chi2: когда и как применять

Хи-квадрат тест проверяет независимость признака и целевой переменной. Работает с категориальными или счётными признаками (например, частоты слов в тексте). Требование: все значения ≥ 0.

import numpy as np
from sklearn.feature_selection import SelectKBest, chi2, mutual_info_classif
from sklearn.datasets import load_breast_cancer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

X, y = load_breast_cancer(return_X_y=True)
feature_names = load_breast_cancer().feature_names

# Chi2 требует неотрицательных признаков — масштабируем MinMaxScaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

selector_chi2 = SelectKBest(chi2, k=10)
X_chi2 = selector_chi2.fit_transform(X_scaled, y)

scores_chi2 = selector_chi2.scores_
top_chi2 = feature_names[np.argsort(scores_chi2)[-10:][::-1]]
print('Top 10 chi2:', top_chi2)

# p-values для оценки значимости
pvalues = selector_chi2.pvalues_
print('P-values для топ признаков:', pvalues[np.argsort(scores_chi2)[-5:]])

Mutual Information: нелинейные зависимости

from sklearn.feature_selection import mutual_info_classif, SelectPercentile

# mutual_info_classif работает с любыми числовыми признаками
selector_mi = SelectKBest(mutual_info_classif, k=10)
X_mi = selector_mi.fit_transform(X, y)

mi_scores = selector_mi.scores_
top_mi = feature_names[np.argsort(mi_scores)[-10:][::-1]]
print('Top 10 MI:', top_mi)

# SelectPercentile: выбрать лучшие 20% признаков
selector_pct = SelectPercentile(mutual_info_classif, percentile=20)
X_pct = selector_pct.fit_transform(X, y)
print('Selected features count:', X_pct.shape[1])

# SelectFpr / SelectFdr — по p-value порогу
from sklearn.feature_selection import SelectFpr, f_classif
selector_fpr = SelectFpr(f_classif, alpha=0.01)  # FPR < 1%
X_fpr = selector_fpr.fit_transform(X, y)
print('FPR selected:', X_fpr.shape[1])

Интеграция в Pipeline

from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

pipe = Pipeline([
    ('scaler', MinMaxScaler()),
    ('selector', SelectKBest(mutual_info_classif)),
    ('clf', LogisticRegression(max_iter=1000, random_state=42))
])

# Оптимизация k через GridSearchCV
param_grid = {'selector__k': [5, 10, 15, 20, 'all']}
grid = GridSearchCV(pipe, param_grid, cv=5, scoring='roc_auc', n_jobs=-1)
grid.fit(X, y)

print('Best k:', grid.best_params_)
print('Best ROC-AUC:', grid.best_score_)

# Получить имена отобранных признаков
best_selector = grid.best_estimator_.named_steps['selector']
selected_names = feature_names[best_selector.get_support()]
print('Selected features:', selected_names)

Подводные камни

Chi2 нельзя применять к признакам с отрицательными значениями — StandardScaler создаёт отрицательные значения, нужен MinMaxScaler.
mutual_info_classif стохастичен (зависит от random_state) и медленнее chi2/f_classif — для больших датасетов это критично.
Univariate selection игнорирует взаимодействия признаков: два слабых признака в паре могут быть мощными — рассмотрите RFE или SelectFromModel.
fit_transform на полном датасете до train/test split — утечка данных; используйте только в Pipeline.
k='all' в GridSearchCV корректно работает только при явном указании в param_grid; убедитесь, что Pipeline принимает строку 'all'.
F-статистика (f_classif) предполагает нормальное распределение признаков — на бинарных или категориальных признаках даёт неверные результаты.
Отбор признаков может ухудшить модель, если важные признаки коррелированы с менее важными — всегда проверяйте через кросс-валидацию.

Что такое `SelectKBest` и как работает отбор признаков с chi2 или mutual information?

SelectKBest — принцип работы

Chi2: когда и как применять

Mutual Information: нелинейные зависимости

Интеграция в Pipeline

Подводные камни

Common mistakes

What the interviewer is testing

Sources

Related topics

Что такое SelectKBest и как работает отбор признаков с chi2 или mutual information?

SelectKBest — принцип работы

Chi2: когда и как применять

Mutual Information: нелинейные зависимости

Интеграция в Pipeline

Подводные камни

Common mistakes

What the interviewer is testing

Sources

Related topics

Что такое `SelectKBest` и как работает отбор признаков с chi2 или mutual information?