scikit-learnMiddleAlgorithms

Объясните, как работает классификатор Random Forest и что контролируют параметры n_estimators и max_depth.

Random Forest — ансамбль деревьев решений, обученных на случайных bootstrap-выборках с случайным подмножеством признаков. n_estimators задаёт количество деревьев, max_depth — глубину каждого дерева.

Как работает Random Forest

Random Forest строит n_estimators деревьев решений, каждое из которых обучается на bootstrap-выборке (случайная выборка с возвращением) исходного датасета. При каждом сплите узла рассматривается только случайное подмножество признаков (по умолчанию sqrt(n_features) для классификации и n_features/3 для регрессии). Финальный прогноз — мажоритарное голосование (классификация) или среднее (регрессия) по всем деревьям.

Два источника рандомизации — bootstrap и случайные признаки — обеспечивают декорреляцию деревьев. Именно декорреляция уменьшает дисперсию ансамбля сильнее, чем просто усреднение коррелированных предсказаний.

Параметр n_estimators

n_estimators — количество деревьев в лесу. Больше деревьев:

  • снижает дисперсию ансамбля (меньше переобучения);
  • стабилизирует feature_importances_;
  • увеличивает время обучения линейно.

После некоторого порога (обычно 100–300) прирост качества минимален. Типичные значения: 100–500. Метрику Out-of-Bag Error (oob_score=True) можно использовать для оценки без кросс-валидации.

Параметр max_depth

max_depth — максимальная глубина каждого дерева. По умолчанию None — деревья растут до чистоты листьев (переобучение). Ограничение глубины:

  • уменьшает переобучение (уменьшает дисперсию);
  • ускоряет обучение;
  • снижает потребление памяти.

Практические значения: 5–15 для большинства задач. Оптимум ищется через GridSearchCV или RandomizedSearchCV.

Пример: обучение и подбор гиперпараметров

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score, RandomizedSearchCV
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt

X, y = load_breast_cancer(return_X_y=True)

# Базовая модель с OOB оценкой
rf = RandomForestClassifier(
    n_estimators=200,
    max_depth=10,
    max_features='sqrt',   # sqrt(n_features) признаков на сплит
    min_samples_leaf=2,
    oob_score=True,
    n_jobs=-1,
    random_state=42
)
rf.fit(X, y)
print('OOB accuracy:', rf.oob_score_)

# Кросс-валидация
scores = cross_val_score(rf, X, y, cv=5, scoring='roc_auc')
print(f'ROC-AUC: {scores.mean():.3f} ± {scores.std():.3f}')

# Feature importance
feat_imp = rf.feature_importances_
top_idx = np.argsort(feat_imp)[-10:]
print('Top 10 features:', load_breast_cancer().feature_names[top_idx])

# Поиск оптимального n_estimators
param_dist = {
    'n_estimators': [50, 100, 200, 300, 500],
    'max_depth': [None, 5, 10, 15, 20],
    'min_samples_split': [2, 5, 10],
    'max_features': ['sqrt', 'log2', 0.3]
}
search = RandomizedSearchCV(
    RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42),
    param_distributions=param_dist,
    n_iter=30,
    scoring='roc_auc',
    cv=5,
    random_state=42,
    n_jobs=-1
)
search.fit(X, y)
print('Best params:', search.best_params_)
print('Best ROC-AUC:', search.best_score_)

Другие важные параметры

  • max_features — количество признаков на сплит. Уменьшение увеличивает декорреляцию деревьев.
  • min_samples_leaf — минимум объектов в листе. Увеличение сглаживает предсказания (аналог регуляризации).
  • class_weight='balanced' — автоматическая коррекция дисбаланса классов.
  • n_jobs=-1 — параллельное обучение на всех ядрах.

Подводные камни

  • По умолчанию max_depth=None ведёт к переобучению на зашумлённых данных — всегда задавайте ограничение или используйте min_samples_leaf.
  • feature_importances_ смещены в пользу признаков с высокой кардинальностью (много уникальных значений) — используйте permutation_importance для надёжной оценки.
  • OOB score занижает дисперсию оценки по сравнению с кросс-валидацией при малом числе деревьев (<50).
  • Очень большой n_estimators при глубоких деревьях требует большого объёма RAM — каждое дерево хранится целиком.
  • Random Forest плохо экстраполирует за пределы обучающей выборки в регрессии — прогноз ограничен диапазоном target в train.
  • Коррелированные признаки делят важность между собой, что затрудняет интерпретацию feature importance.
  • При работе с временными рядами bootstrap нарушает temporal ordering — нужен TimeSeriesSplit вместо KFold.

Common mistakes

  • Объяснять random forest parameters только синтаксисом без shape, dtype, состояния или режима выполнения.
  • Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
  • Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.

What the interviewer is testing

  • Может ли связать random forest parameters с реальным контрактом входов и выходов.
  • Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
  • Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.

Sources

Related topics