Spams : fléau 2.0

  • Environ 3 milliards de boîtes mails dans le monde
  • 507 milliards de mails envoyés quotidiennement
  • 84% des mails envoyés en 2013 sont des spams
  • Une personne reçoit/envoie en moyenne 219 mails par jour

Des emails vers les données

Extraction des mots clés

"enjoy" est présent

"meeting" est absent

"discount" est présent

Recodage des données

Données

UCI spams (Hopkins, Reeber, Forman, Suermondt de Hewlett-Packard Lab).

  • 4601 mails
  • 54 mots clés

Quelques mots-clés ciblés:

  • internet
  • free
  • business
  • conference
  • money
  • ...

Comment trier?

Zoom sur le tableau de données

On permute la ligne 2 avec la ligne 3

On permute les lignes 2 et 4 avec la 5

Apparition d'une structure

On devine les mots clés caractéristiques de chaque groupe

Besoin de mathématiques

f ( x i | α k ) = ∑ k = 1 K p k h ( x i | α k )

h ( x i | α k ) = ∏ j = 1 d ∏ h = 1 m j ( α k j h ) x i j h

Besoin d'informatique

Tri en 2 groupes

Bon classement : 81.6%

Tri automatique final

Tri en 3 groupes

Bon classement : 84.2%

Tri automatique final

2 ou 3 groupes?