Halte au Spam

Paul Graham

Paul Graham, organisateur de la «Spam Conference» au MIT

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Halte au Spam, le livre

MIT Spam Conference 2004.
Cambridge, le 16 janvier 2004.

Nous avons assisté à la deuxième édition de la Spam Conference, qui s’est tenue le 16 janvier 2004 au MIT (Massachusetts Institute of Technology) à Cambridge. Son instigateur, Paul Graham, est connu pour avoir relancé les filtres bayésiens. La première édition en 2003 a compté cinq cent participants, alors que Paul n’en attendait que cent cinquante. Cette manifestation regroupe des développeurs de haut niveau. Des spécialistes de la lutte anti-spam ont fait le déplacement du monde entier pour y échanger leur point de vue. On peut regretter la très faible participation Européenne, dont française. Si la première conférence était concentrée sur les premières implémentations des algorithmes bayésiens, cette édition était plus variée dans les sujets couverts. Lors de la soirée organisée au domicile de Paul Graham, nous avons pu confronter nos idées avec les principaux intervenants. Voici notre synthèse des points saillants de cette conférence

Terry Sullivan
Le premier intervenant, Terry Sullivan, a commencé par remettre en cause certaines idées reçues. Selon lui, le spam muterait moins qu’on ne l’imagine généralement. En s’appuyant sur la méthode statistique PCA (Principal Components Analysis), il soutient que l’une des caractéristiques du spam serait invariante à travers le temps : « Celles qui sont rares restent rares, les plus habituelles restent habituelles ».

M. Sullivan assure avoir identifié une caractéristique qui permettrait d’identifier 70% du spam… mais il a refusé de dévoiler laquelle. D’une part, cette information serait précieuse pour les spammeurs, par ailleurs, Terry Sullivan souhaite inciter ses confrères à rechercher et à identifier d’autres critères. Ce caractère constant permettrait selon lui, d’appliquer des techniques de « prévisions météorologiques ». Des algorithmes peu gourmands pourraient ainsi être implémentés pour piéger une majeure partie du spam.

Notre commentaire : En off, les autres intervenants se sont montrés surpris et dubitatifs. A notre retour en France, nous recevions une mutation nouvelle des spams : ceux-ci se font désormais passer pour des NDR (rapports de non livraison).

A l’opposé, Geoff Hulten chercheur chez Microsoft, a déclaré que leurs services se basent sur 500.000 critères pour déterminer s’il s’agit de spam ou non !!! Cette analyse est effectuée sur les messages que leur soumettent cent mille internautes, choisis au hasard parmi la centaine de millions de comptes Hotmail. Le corpus ainsi constitué comporte plusieurs milliards de messages.

Geoff Hulten

A partir d’un échantillon de deux millions de spams prélevés sur ce corpus, Microsoft s’est intéressé au modèle économique des spammeurs. Dans 30% des cas, une implantation locale est indispensable (produits financiers, assurances), dans 32% des cas une implantation à l’étranger est possible, mais les frais d’expédition doivent rester « acceptables » (Viagra, diplômes, DVD…). Le reste correspond à des activités qui peuvent être totalement délocalisées (sites pornographiques, logiciels, arnaques). Geoff à également indiqué que 16% des spams étaient de nature pornographique.

Notre commentaire : Ce dernier chiffre est très éloigné de ceux communiqués par la CNIL à l’issue de l’opération « Boîte à spams », 42% des pourriels en langue anglaise appartenaient à cette catégorie. Cet écart est-il le reflet d’une profonde mutation du spam ou est il le témoin d’une forte croissance sur les autres sujets ? C’est pour obtenir ce genre de réponses que nous avons proposé la mise en place d’un « observatoire du spam » (chapitre « Mesures et évaluation du Spam »).

Bill Yerazunis

Bill Yerazunis, coorganisateur, à présenté la suite logique de son intervention de l’année passée où il avait présenté son filtre bayésien CRM114. La précision de son outil atteignait déjà 99,9%. Son intervention de cette année s’intitulait « Beyond 99,9% accuracy ».

Bill a listé les différentes pistes à évaluer. Voici les plus inédites d’entre elles :
• Ajout de fonctions collaboratives aux filtres statistiques (similaire au système SpamNet).
• L’astuce du « Just in time filtering » qui consiste à appliquer le traitement au dernier moment, et non dès la réception du message. Pourquoi ? Pour se donner plus de chances de profiter d’informations complémentaires (mises à jour, nouvelles signatures de spam, etc.)
• L’utilisation d’un algorithme basé sur les chaînes de Markov (prise en compte de groupes de mots en attribuant des poids proportionnels au nombre de mots considérés). Sur 9000 messages il obtient une précision de 99,95%
• L’entraînement des filtres bayésiens suivant l’une de ces trois techniques : TEFT (Train on EveryThing), éducation permanente sur tous les messages ; TOE (Train On Errors), éducation uniquement sur les erreurs ; TUNE (Train Until No Errors), éducation jusqu’à la disparition des erreurs. Bill indique obtenir les meilleurs résultats avec cette dernière technique, malgré l’obligation de stocker tous les messages.

Bill Yerazunis s’est également penché sur la gestion des bases de mots clés, il a constaté, sans pouvoir l’expliquer, que l’effacement aléatoire de quelques hapax (occurrences uniques) donnait de meilleurs résultats.

Jonathan Zdziarski travaille avec Bill Yerazunis sur un RFC portant sur « l’inoculation » (mise en commun de la signature des spams). Il a fait part de ses travaux pour adapter les filtres bayésiens à l’environnement de l’entreprise. Pour lui, deux points essentiels doivent être soignés : rapidité de traitement et ergonomie (projet DSPAM).

Jonathan Zdziarski

Miles Libbey

Miles Libbey, Anti-Spam Product Manager chez Yahoo!, est revenu sur les propos de Terry Sullivan concernant la faible mutation du spam. Or, ses équipes constatent que les spammeurs réagissent quelquefois en une heure à leurs règles de filtrage.
Concernant les attaques de dictionnaire, il indique que la simple croissance du nombre d’internautes donne d’avantage de probabilités aux spammeurs pour deviner leurs adresses e-mail.
Pour lui, l’année 2003 aura surtout été marquée par l’ingéniosité des spammeurs pour éviter d’être identifiés : open proxies, PC zombis,…


John Graham-Cumming, créateur du filtre bayésien Popfile et directeur de la recherche pour l’Anti-Apam Task Force de Sophos, a commencé par indiquer son analyse des faux négatifs (125 sur 52.000 messages) générés par son outil :
• 52% correspondent à des « picospams » (spams minimalistes, qui ne comportent qu’une url)
• 13% correspondent à des messages encodés en RTF (Rich Text Format). Il reconnaît lui-même que ces spams auraient du être détectés par un filtre ayant déjà traité des courriels de ce type.
• 9% des cas étaient des faux messages « Challenge/Response » renvoyant vers le site d’un spammeur. D’après lui, le détournement par les spammeurs de cette technique est très inquiétant. Les initiatives de type « Challenge/Response » risquent de perdre leur crédibilité auprès des internautes.
• 9% correspondent à de faux Non Delivery Report (rapports de non livraison). A nouveau, quelle confiance peut-on désormais accorder aux NDR ?
• 4% des faux négatifs étaient tout simplement vides !
• 13% (soit deux messages) correspondaient à des publicités pour des logiciels anti-spam.

John Graham-Cumming cherche à avoir un coup d’avance sur les spammeurs. Il a cherché les contre-mesures que ceux-ci pourraient exploiter pour contourner les filtres bayésiens. Il a identifié une technique qui permettrait aux spammeurs d’identifier les mots clés associés aux messages légitimes attendus par chaque internaute. Cette méthode utilisant l’analyse des retours (NDR, web bugs, Challenge/Response, bounce, etc.), il est impératif de rester furtif et de ne pas signaler l’ouverture des spams. Pour l’anecdote, il a utilisé pour ce faire un filtre bayésien ! John a repris en conclusion la recommandation de ne pas s’appuyer sur une seule technologie de filtrage.

Notre commentaire : les dernières astuces utilisées par les spammeurs érodent d’avantage la confiance qu’ont les internautes dans l’outil e-mail. Par exemple, si l’on décide de détruire les spams ayant l’aspect des NDR, on se prive des véritables messages de non livraison.

Peter Kay, de Titan Key basé à Hawaï, a présenté une approche novatrice qui arrête le spam à l’émission. Elle s’appuie sur une maîtrise totale des adresses e-mail.Ce concept se rattache aux solutions d’adresses gérables que nous avions présentées lors du Spam Forum Paris.Lorsque vous communiquez une adresse, vous en contrôlez tous les attributs : durée de vie, domaines associés à l’émetteur…

Peter Kay

Même dans le cas où l’on a divulgué une adresse trop « laxiste », il est possible d’en modifier les règles : n’accepter que des messages issus d’émetteurs qui ont déjà communiqué avec nous, activer un Challenge/Response…

Notre commentaire : Ces solutions sont prometteuses. Leur succès dépend de leur facilité d’utilisation.

Eric Raymond
Eric Raymond, un pionnier d’Unix et de GNU, a présenté le projet SPF (Sender Policy Framework). Ce mécanisme évite la falsification des entêtes. Un nouveau champ indique les machines ayant le droit d’émettre des messages depuis un domaine. Aucune mise à jour des services DNS n’est nécessaire à part la création de ce record. Par contre, les serveurs SMTP devront bénéficier des dernières versions (Sendmail intègre déjà cette nouvelle caractéristique).

Eric Raymond signale lui même un inconvénient : les utilisateurs nomades ne pourraient émettre des messages qu’en utilisant des protocoles d’authentification ou des VPN.

Notre commentaire : Cette technique facilitera l’identification des spammeurs. Son succès repose toutefois sur son application. Quand on connaît l’état des DNS, on peut avoir quelques doutes…

Richard Jowsey


Richard Jowsey a développé un des premiers filtres baysésiens – appelé Death2Spam – destiné aux entreprises et aux FAI. Son exposé a porté sur les adaptations nécessaires pour assurer la mise en commun, au sein d’une entreprise, de la base de mots clés.
Richard a conclu : « avec un taux de filtrage supérieur à 99% et un taux de faux positifs inférieur à 0,01%, les utilisateurs vous adorent ! »

En complément de ces réflexions d’ordre technique, Paul Graham avait convié deux avocats américains, pour évoquer la toute récente loi fédérale CAN-SPAM.

Jon Praed de Internet Law Group, peut se targuer de nombreux succès face aux spammeurs avec un cumul de dix millions de dollars obtenus sur une douzaine de procès. Il confirme que toutes les poursuites sont utiles. Les avocats prêts à défendre les spammeurs sont de moins en moins nombreux. De plus il constate que les condamnés ne font jamais appel. Même en cas d’acquittement, on peut ressentir comme une victoire le temps et les ressources mobilisées par le spammeur.

Jon Praed

A une question de la salle concernant un tel scenario, l’avocat à décrit le cas récent dans lequel deux techniciens ont, pour le moment, échappé à un procès en Virginie pour être jugés en Floride. Les spams étaient envoyés depuis vingt serveurs localisés dans cet état. En attendant, le cerveau de l’opération, un américain résidant en Thaïlande, à été condamné. Ce cas illustre une bonne coopération internationale. Les pays qui ne prendront pas une attitude proactive face au spam courent simplement le risque de se voir coupés d’Internet.
Jon Praed note que les spammeurs constituent une petite communauté : avocats communs, collaboration… Au plus, un seul intermédiaire sépare deux spammeurs (transactions financières ou communication). Identifier l’un d’entre eux permet d’accéder à un autre.
Avec CAN-SPAM, l’avocat juge désormais l’arsenal juridique suffisant.

Notre commentaire : On peut rappeler l’information délivrée par Microsoft lors de cette conférence, selon laquelle 70% des spams pourraient être émis depuis l’étranger. Malgré les lois pour faire la chasse à l’argent sale, les paradis fiscaux sont toujours là…

Nous avons fortement apprécié l’une des dispositions de la loi CAN-SPAM, qui permet d’impliquer les donneurs d’ordre. Barry Schein, président du FAI « The World », et intervenant de l’édition précédente, nous a confié faire la même analyse. Par ailleurs, au contraire de l’image que nous en avons, il perçoit les spammeurs comme étant assez vulnérables.

Matthew Prince

Matthew Prince, avocat de la société Unspam, apporte son aide aux législateurs (dont le sénateur Schumer) pour rédiger des textes efficaces. Pour sa part, il est moins optimiste quant à l’efficacité de CAN-SPAM.

Il constate que par le passé, les lois au niveau des états, dont certaines étaient plus strictes que le texte fédéral, se sont avérées peu efficaces. Il note que c’est l’état de Washington qui a obtenu les meilleurs résultats, d’après lui grâce à la liste d’opposition. Il appelle de tous ces vœux une liste « Do not spam » au niveau fédéral.
Matthew Prince s’étonne que plus d’attention ne soit pas porté à la phase de collecte des adresses par les spammeurs. Pour les adresses publiées sur les sites Web, il recommande d’ajouter une mention de copyright.

Notre Commentaire : Concernant la « Do not Spam list », il faut rappeler que le gouvernement à commandé une étude de faisabilité à la FTC. Par le passé, celle-ci n’a jamais caché son opposition à une telle idée.
Pour ce qui est de la collecte des données personnelles, la France dispose d’une telle protection depuis 1978, avec la loi Informatique et Libertés.

Vous pouvez également visiter les pages suivantes, en complément :

  • Le site de la « Spam Conference ».
  • « A plan for Spam ». Pour tout savoir sur les filtres baysésiens, par Paul Graham.

  • Les travaux de Jonathan Zdziarski concernant la collaboration entre filtres anti-spam.

  • Peter Kay présente son offre d’adresses email entièrement paramétrable, « Titan Key ».

  • Pour en savoir plus sur la proposition d’Eric Raymond (amélioration du DNS).

  • Richard Jowsey présente son filtre Death2Spam

  • La page de la « Do Not Spam List » de l’état de Washington