Объясните, как работает классификатор Random Forest и что контролируют параметры n_estimators и max_depth.
Random Forest — ансамбль деревьев решений, обученных на случайных bootstrap-выборках с случайным подмножеством признаков. n_estimators задаёт количество деревьев, max_depth — глубину каждого дерева.
Как работает Random Forest
Random Forest строит n_estimators деревьев решений, каждое из которых обучается на bootstrap-выборке (случайная выборка с возвращением) исходного датасета. При каждом сплите узла рассматривается только случайное подмножество признаков (по умолчанию sqrt(n_features) для классификации и n_features/3 для регрессии). Финальный прогноз — мажоритарное голосование (классификация) или среднее (регрессия) по всем деревьям.
Два источника рандомизации — bootstrap и случайные признаки — обеспечивают декорреляцию деревьев. Именно декорреляция уменьшает дисперсию ансамбля сильнее, чем просто усреднение коррелированных предсказаний.
Параметр n_estimators
n_estimators — количество деревьев в лесу. Больше деревьев:
- снижает дисперсию ансамбля (меньше переобучения);
- стабилизирует
feature_importances_; - увеличивает время обучения линейно.
После некоторого порога (обычно 100–300) прирост качества минимален. Типичные значения: 100–500. Метрику Out-of-Bag Error (oob_score=True) можно использовать для оценки без кросс-валидации.
Параметр max_depth
max_depth — максимальная глубина каждого дерева. По умолчанию None — деревья растут до чистоты листьев (переобучение). Ограничение глубины:
- уменьшает переобучение (уменьшает дисперсию);
- ускоряет обучение;
- снижает потребление памяти.
Практические значения: 5–15 для большинства задач. Оптимум ищется через GridSearchCV или RandomizedSearchCV.
Пример: обучение и подбор гиперпараметров
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score, RandomizedSearchCV
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
X, y = load_breast_cancer(return_X_y=True)
# Базовая модель с OOB оценкой
rf = RandomForestClassifier(
n_estimators=200,
max_depth=10,
max_features='sqrt', # sqrt(n_features) признаков на сплит
min_samples_leaf=2,
oob_score=True,
n_jobs=-1,
random_state=42
)
rf.fit(X, y)
print('OOB accuracy:', rf.oob_score_)
# Кросс-валидация
scores = cross_val_score(rf, X, y, cv=5, scoring='roc_auc')
print(f'ROC-AUC: {scores.mean():.3f} ± {scores.std():.3f}')
# Feature importance
feat_imp = rf.feature_importances_
top_idx = np.argsort(feat_imp)[-10:]
print('Top 10 features:', load_breast_cancer().feature_names[top_idx])
# Поиск оптимального n_estimators
param_dist = {
'n_estimators': [50, 100, 200, 300, 500],
'max_depth': [None, 5, 10, 15, 20],
'min_samples_split': [2, 5, 10],
'max_features': ['sqrt', 'log2', 0.3]
}
search = RandomizedSearchCV(
RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42),
param_distributions=param_dist,
n_iter=30,
scoring='roc_auc',
cv=5,
random_state=42,
n_jobs=-1
)
search.fit(X, y)
print('Best params:', search.best_params_)
print('Best ROC-AUC:', search.best_score_)
Другие важные параметры
max_features— количество признаков на сплит. Уменьшение увеличивает декорреляцию деревьев.min_samples_leaf— минимум объектов в листе. Увеличение сглаживает предсказания (аналог регуляризации).class_weight='balanced'— автоматическая коррекция дисбаланса классов.n_jobs=-1— параллельное обучение на всех ядрах.
Подводные камни
- По умолчанию
max_depth=Noneведёт к переобучению на зашумлённых данных — всегда задавайте ограничение или используйтеmin_samples_leaf. feature_importances_смещены в пользу признаков с высокой кардинальностью (много уникальных значений) — используйтеpermutation_importanceдля надёжной оценки.- OOB score занижает дисперсию оценки по сравнению с кросс-валидацией при малом числе деревьев (<50).
- Очень большой
n_estimatorsпри глубоких деревьях требует большого объёма RAM — каждое дерево хранится целиком. - Random Forest плохо экстраполирует за пределы обучающей выборки в регрессии — прогноз ограничен диапазоном target в train.
- Коррелированные признаки делят важность между собой, что затрудняет интерпретацию feature importance.
- При работе с временными рядами bootstrap нарушает temporal ordering — нужен TimeSeriesSplit вместо KFold.
Common mistakes
- Объяснять
random forest parametersтолько синтаксисом без shape, dtype, состояния или режима выполнения. - Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
- Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.
What the interviewer is testing
- Может ли связать
random forest parametersс реальным контрактом входов и выходов. - Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
- Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.