En apprentissage automatique supervisé, la matrice de confusion est une matrice qui mesure la qualité d'un système de classification. Chaque ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été estimés comme appartenant à la classe C.

Un des intérêts de la matrice de confusion est qu'elle montre rapidement si un système de classification parvient à classifier correctement.

Exemple

On souhaite mesurer la qualité d'un système de classification de courriers électroniques. Les courriers sont classifiés selon deux classes : courriel pertinent ou pourriel intempestif. Supposons que notre classificateur est testé avec un jeu de 200 mails, dont 100 sont des courriels pertinents et et les 100 autres sont des 100 pourriels.

Pour cela, on veut savoir :

La matrice de confusion suivante se lit alors comme suit :

Classe estimée par le classificateur
courriel pourriel
Classe réelle courriel 95
(vrais positifs)
5
(faux négatifs)
pourriel 3
(faux positifs)
97
(vrais négatifs)

Cette notion s'étend à un nombre quelconque de classes. On peut normaliser cette matrice pour en simplifier la lecture : dans ce cas, un système de classification sera d'autant meilleur que sa matrice de confusion s'approchera d'une matrice diagonale.


Cet article utilise du matériel de l'article de Wikipédia Matrice de confusion, qui est publié sous le Creative Commons Attribution-Share-Alike License 3.0.