scikit-learnJuniorTechnical

Как интерпретировать confusion_matrix и когда accuracy является вводящей в заблуждение метрикой?

Confusion matrix показывает TP, FP, FN, TN — из неё выводят precision, recall, F1. Accuracy вводит в заблуждение при дисбалансе классов: модель, предсказывающая только большинство, даёт 99% accuracy, но бесполезна. При дисбалансе смотрят на ROC-AUC, F1, precision/recall.

Что такое confusion matrix

Матрица ошибок (confusion matrix) для бинарной классификации — таблица 2×2, где строки соответствуют реальным классам, столбцы — предсказанным:

  • TP (True Positive) — верно предсказан положительный класс.
  • TN (True Negative) — верно предсказан отрицательный класс.
  • FP (False Positive) — ошибка первого рода: отрицательный помечен как положительный.
  • FN (False Negative) — ошибка второго рода: положительный пропущен.

Из этих четырёх чисел выводятся все остальные метрики: Accuracy = (TP+TN)/(TP+TN+FP+FN), Precision = TP/(TP+FP), Recall = TP/(TP+FN), F1 = 2·P·R/(P+R).

Когда accuracy обманывает

При сильном дисбалансе классов (например, 99% отрицательных) модель, всегда предсказывающая «0», получит accuracy = 99% — но recall положительного класса = 0. Это критично в медицине (пропуск болезни), фроде (пропуск мошенничества), дефектах производства.

Пример: дисбаланс и сравнение метрик

import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    confusion_matrix, classification_report,
    ConfusionMatrixDisplay, roc_auc_score
)
from sklearn.dummy import DummyClassifier

# Сильный дисбаланс: 5% позитивных
X, y = make_classification(
    n_samples=2000, n_features=20, weights=[0.95, 0.05],
    flip_y=0.01, random_state=42
)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42
)

models = {
    "Dummy (majority)": DummyClassifier(strategy="most_frequent"),
    "LogisticRegression": LogisticRegression(class_weight="balanced", max_iter=500),
    "RandomForest": RandomForestClassifier(class_weight="balanced", n_estimators=100, random_state=42),
}

for name, clf in models.items():
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    acc = (cm[0,0] + cm[1,1]) / cm.sum()
    auc = roc_auc_score(y_test, clf.predict_proba(X_test)[:, 1])
    print(f"\n=== {name} ===")
    print(f"Accuracy: {acc:.3f}  |  ROC-AUC: {auc:.3f}")
    print(classification_report(y_test, y_pred, target_names=["neg", "pos"]))

Что смотреть вместо accuracy

  • ROC-AUC — устойчив к дисбалансу, показывает разделяющую способность при разных порогах.
  • Precision-Recall AUC — лучше ROC-AUC при очень сильном дисбалансе.
  • F1-score — гармоническое среднее precision и recall, штрафует за провал любой из них.
  • class_weight="balanced" в sklearn — автоматически взвешивает классы обратно пропорционально частоте.

Подводные камни

  • Stratify при split: без stratify=y при дисбалансе тестовая выборка может случайно содержать мало примеров меньшинства — метрики будут нестабильны.
  • Порог по умолчанию 0.5: для задач с разной ценой FP и FN оптимальный порог часто не равен 0.5 — выбирайте его по precision-recall кривой или бизнес-метрике.
  • Macro vs weighted F1: average="macro" одинаково взвешивает все классы (важно при дисбалансе), average="weighted" взвешивает по поддержке — для несбалансированных классов они дают очень разный результат.
  • Multiclass confusion matrix: при N классах матрица N×N — суммируйте по строкам/столбцам, чтобы получить per-class TP/FP/FN.
  • Утечка через SMOTE до split: если применять SMOTE (oversampling) до train/test split, синтетические примеры попадут и в тест — метрики будут завышены; всегда выполняйте resampling только внутри пайплайна на train.
  • Confusion matrix не заменяет анализ ошибок: смотрите на конкретные FP/FN примеры — часто это выявляет системные проблемы в данных или разметке.

Common mistakes

  • Объяснять confusion matrix accuracy только синтаксисом без shape, dtype, состояния или режима выполнения.
  • Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
  • Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.

What the interviewer is testing

  • Может ли связать confusion matrix accuracy с реальным контрактом входов и выходов.
  • Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
  • Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.

Sources

Related topics