Как интерпретировать `confusion_matrix` и когда accuracy является вводящей в заблуждение метрикой?

Question

Accepted Answer

Что такое confusion matrix

Матрица ошибок (confusion matrix) для бинарной классификации — таблица 2×2, где строки соответствуют реальным классам, столбцы — предсказанным:

TP (True Positive) — верно предсказан положительный класс.
TN (True Negative) — верно предсказан отрицательный класс.
FP (False Positive) — ошибка первого рода: отрицательный помечен как положительный.
FN (False Negative) — ошибка второго рода: положительный пропущен.

Из этих четырёх чисел выводятся все остальные метрики: Accuracy = (TP+TN)/(TP+TN+FP+FN), Precision = TP/(TP+FP), Recall = TP/(TP+FN), F1 = 2·P·R/(P+R).

Когда accuracy обманывает

При сильном дисбалансе классов (например, 99% отрицательных) модель, всегда предсказывающая «0», получит accuracy = 99% — но recall положительного класса = 0. Это критично в медицине (пропуск болезни), фроде (пропуск мошенничества), дефектах производства.

Пример: дисбаланс и сравнение метрик

import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    confusion_matrix, classification_report,
    ConfusionMatrixDisplay, roc_auc_score
)
from sklearn.dummy import DummyClassifier

# Сильный дисбаланс: 5% позитивных
X, y = make_classification(
    n_samples=2000, n_features=20, weights=[0.95, 0.05],
    flip_y=0.01, random_state=42
)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42
)

models = {
    "Dummy (majority)": DummyClassifier(strategy="most_frequent"),
    "LogisticRegression": LogisticRegression(class_weight="balanced", max_iter=500),
    "RandomForest": RandomForestClassifier(class_weight="balanced", n_estimators=100, random_state=42),
}

for name, clf in models.items():
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    acc = (cm[0,0] + cm[1,1]) / cm.sum()
    auc = roc_auc_score(y_test, clf.predict_proba(X_test)[:, 1])
    print(f"
=== {name} ===")
    print(f"Accuracy: {acc:.3f}  |  ROC-AUC: {auc:.3f}")
    print(classification_report(y_test, y_pred, target_names=["neg", "pos"]))

Что смотреть вместо accuracy

ROC-AUC — устойчив к дисбалансу, показывает разделяющую способность при разных порогах.
Precision-Recall AUC — лучше ROC-AUC при очень сильном дисбалансе.
F1-score — гармоническое среднее precision и recall, штрафует за провал любой из них.
class_weight="balanced" в sklearn — автоматически взвешивает классы обратно пропорционально частоте.

Подводные камни

Stratify при split: без stratify=y при дисбалансе тестовая выборка может случайно содержать мало примеров меньшинства — метрики будут нестабильны.
Порог по умолчанию 0.5: для задач с разной ценой FP и FN оптимальный порог часто не равен 0.5 — выбирайте его по precision-recall кривой или бизнес-метрике.
Macro vs weighted F1: average="macro" одинаково взвешивает все классы (важно при дисбалансе), average="weighted" взвешивает по поддержке — для несбалансированных классов они дают очень разный результат.
Multiclass confusion matrix: при N классах матрица N×N — суммируйте по строкам/столбцам, чтобы получить per-class TP/FP/FN.
Утечка через SMOTE до split: если применять SMOTE (oversampling) до train/test split, синтетические примеры попадут и в тест — метрики будут завышены; всегда выполняйте resampling только внутри пайплайна на train.
Confusion matrix не заменяет анализ ошибок: смотрите на конкретные FP/FN примеры — часто это выявляет системные проблемы в данных или разметке.

Как интерпретировать `confusion_matrix` и когда accuracy является вводящей в заблуждение метрикой?

Что такое confusion matrix

Когда accuracy обманывает

Пример: дисбаланс и сравнение метрик

Что смотреть вместо accuracy

Подводные камни

Common mistakes

What the interviewer is testing

Sources

Related topics

Как интерпретировать confusion_matrix и когда accuracy является вводящей в заблуждение метрикой?

Что такое confusion matrix

Когда accuracy обманывает

Пример: дисбаланс и сравнение метрик

Что смотреть вместо accuracy

Подводные камни

Common mistakes

What the interviewer is testing

Sources

Related topics

Как интерпретировать `confusion_matrix` и когда accuracy является вводящей в заблуждение метрикой?