Как интерпретировать confusion_matrix и когда accuracy является вводящей в заблуждение метрикой?
Confusion matrix показывает TP, FP, FN, TN — из неё выводят precision, recall, F1. Accuracy вводит в заблуждение при дисбалансе классов: модель, предсказывающая только большинство, даёт 99% accuracy, но бесполезна. При дисбалансе смотрят на ROC-AUC, F1, precision/recall.
Что такое confusion matrix
Матрица ошибок (confusion matrix) для бинарной классификации — таблица 2×2, где строки соответствуют реальным классам, столбцы — предсказанным:
- TP (True Positive) — верно предсказан положительный класс.
- TN (True Negative) — верно предсказан отрицательный класс.
- FP (False Positive) — ошибка первого рода: отрицательный помечен как положительный.
- FN (False Negative) — ошибка второго рода: положительный пропущен.
Из этих четырёх чисел выводятся все остальные метрики: Accuracy = (TP+TN)/(TP+TN+FP+FN), Precision = TP/(TP+FP), Recall = TP/(TP+FN), F1 = 2·P·R/(P+R).
Когда accuracy обманывает
При сильном дисбалансе классов (например, 99% отрицательных) модель, всегда предсказывающая «0», получит accuracy = 99% — но recall положительного класса = 0. Это критично в медицине (пропуск болезни), фроде (пропуск мошенничества), дефектах производства.
Пример: дисбаланс и сравнение метрик
import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
confusion_matrix, classification_report,
ConfusionMatrixDisplay, roc_auc_score
)
from sklearn.dummy import DummyClassifier
# Сильный дисбаланс: 5% позитивных
X, y = make_classification(
n_samples=2000, n_features=20, weights=[0.95, 0.05],
flip_y=0.01, random_state=42
)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.3, stratify=y, random_state=42
)
models = {
"Dummy (majority)": DummyClassifier(strategy="most_frequent"),
"LogisticRegression": LogisticRegression(class_weight="balanced", max_iter=500),
"RandomForest": RandomForestClassifier(class_weight="balanced", n_estimators=100, random_state=42),
}
for name, clf in models.items():
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
acc = (cm[0,0] + cm[1,1]) / cm.sum()
auc = roc_auc_score(y_test, clf.predict_proba(X_test)[:, 1])
print(f"\n=== {name} ===")
print(f"Accuracy: {acc:.3f} | ROC-AUC: {auc:.3f}")
print(classification_report(y_test, y_pred, target_names=["neg", "pos"]))
Что смотреть вместо accuracy
- ROC-AUC — устойчив к дисбалансу, показывает разделяющую способность при разных порогах.
- Precision-Recall AUC — лучше ROC-AUC при очень сильном дисбалансе.
- F1-score — гармоническое среднее precision и recall, штрафует за провал любой из них.
- class_weight="balanced" в sklearn — автоматически взвешивает классы обратно пропорционально частоте.
Подводные камни
- Stratify при split: без
stratify=yпри дисбалансе тестовая выборка может случайно содержать мало примеров меньшинства — метрики будут нестабильны. - Порог по умолчанию 0.5: для задач с разной ценой FP и FN оптимальный порог часто не равен 0.5 — выбирайте его по precision-recall кривой или бизнес-метрике.
- Macro vs weighted F1:
average="macro"одинаково взвешивает все классы (важно при дисбалансе),average="weighted"взвешивает по поддержке — для несбалансированных классов они дают очень разный результат. - Multiclass confusion matrix: при N классах матрица N×N — суммируйте по строкам/столбцам, чтобы получить per-class TP/FP/FN.
- Утечка через SMOTE до split: если применять SMOTE (oversampling) до train/test split, синтетические примеры попадут и в тест — метрики будут завышены; всегда выполняйте resampling только внутри пайплайна на train.
- Confusion matrix не заменяет анализ ошибок: смотрите на конкретные FP/FN примеры — часто это выявляет системные проблемы в данных или разметке.
Common mistakes
- Объяснять
confusion matrix accuracyтолько синтаксисом без shape, dtype, состояния или режима выполнения. - Игнорировать leakage, воспроизводимость, пустые входы и скрытые копии данных.
- Не проверять production-симптомы: latency, память, ретраи, дрейф качества и несовпадение версий.
What the interviewer is testing
- Может ли связать
confusion matrix accuracyс реальным контрактом входов и выходов. - Упоминает ли тесты, метрики, reproducibility и диагностику ошибок.
- Видит ли различие между demo-кодом в ноутбуке и production-пайплайном.