MIT Spam Conference 2004.
Cambridge, le 16
janvier 2004.
Nous
avons assisté à la deuxième édition
de la Spam Conference, qui s’est tenue le
16 janvier 2004 au MIT (Massachusetts Institute of Technology)
à Cambridge. Son instigateur, Paul Graham, est connu
pour avoir relancé les filtres bayésiens.
La première édition en 2003 a compté
cinq cent participants, alors que Paul n’en attendait
que cent cinquante. Cette manifestation regroupe des développeurs
de haut niveau. Des spécialistes de la lutte anti-spam
ont fait le déplacement du monde entier pour y échanger
leur point de vue. On peut regretter la très faible
participation Européenne, dont française.
Si la première conférence était concentrée
sur les premières implémentations des algorithmes
bayésiens, cette édition était plus
variée dans les sujets couverts. Lors
de la soirée organisée au domicile de Paul
Graham, nous avons pu confronter nos idées avec les
principaux intervenants. Voici notre synthèse des
points saillants de cette conférence
 |
Le
premier intervenant, Terry Sullivan, a commencé
par remettre en cause certaines idées reçues.
Selon lui, le spam muterait moins qu’on ne l’imagine
généralement. En s’appuyant sur
la méthode statistique PCA (Principal Components
Analysis), il soutient que l’une des caractéristiques
du spam serait invariante à travers le temps
: « Celles qui sont rares restent rares, les
plus habituelles restent habituelles ».
|
M.
Sullivan assure avoir identifié une caractéristique
qui permettrait d’identifier 70% du spam… mais
il a refusé de dévoiler laquelle. D’une
part, cette information serait précieuse pour les
spammeurs, par ailleurs, Terry Sullivan souhaite inciter
ses confrères à rechercher et à identifier
d’autres critères. Ce caractère constant
permettrait selon lui, d’appliquer des techniques
de « prévisions météorologiques
». Des algorithmes peu gourmands pourraient ainsi
être implémentés pour piéger
une majeure partie du spam.
Notre
commentaire :
En off, les autres intervenants se sont montrés surpris
et dubitatifs. A notre retour en France, nous recevions
une mutation nouvelle des spams : ceux-ci se font désormais
passer pour des NDR (rapports de non livraison).
A
l’opposé, Geoff Hulten chercheur chez
Microsoft, a déclaré que leurs services
se basent sur 500.000 critères pour déterminer
s’il s’agit de spam ou non !!! Cette analyse
est effectuée sur les messages que leur soumettent
cent mille internautes, choisis au hasard parmi la
centaine de millions de comptes Hotmail. Le corpus
ainsi constitué comporte plusieurs milliards
de messages. |
|
A
partir d’un échantillon de deux millions de
spams prélevés sur ce corpus, Microsoft s’est
intéressé au modèle économique
des spammeurs. Dans 30% des cas, une implantation locale
est indispensable (produits financiers, assurances), dans
32% des cas une implantation à l’étranger
est possible, mais les frais d’expédition doivent
rester « acceptables » (Viagra, diplômes,
DVD…). Le reste correspond à des activités
qui peuvent être totalement délocalisées
(sites pornographiques, logiciels, arnaques). Geoff à
également indiqué que 16% des spams étaient
de nature pornographique.
Notre
commentaire : Ce dernier chiffre est très
éloigné de ceux communiqués par la
CNIL à l’issue de l’opération
« Boîte à spams », 42% des pourriels
en langue anglaise appartenaient à cette catégorie.
Cet écart est-il le reflet d’une profonde mutation
du spam ou est il le témoin d’une forte croissance
sur les autres sujets ? C’est pour obtenir ce genre
de réponses que nous avons proposé la mise
en place d’un « observatoire du spam »
(chapitre « Mesures et évaluation du Spam »).
 |
Bill
Yerazunis, coorganisateur, à présenté
la suite logique de son intervention de l’année
passée où il avait présenté
son filtre bayésien CRM114. La précision
de son outil atteignait déjà 99,9%.
Son intervention de cette année s’intitulait
« Beyond 99,9% accuracy ».
|
Bill
a listé les différentes pistes à évaluer.
Voici les plus inédites d’entre elles :
• Ajout de fonctions collaboratives aux filtres statistiques
(similaire au système SpamNet).
• L’astuce du « Just in time filtering
» qui consiste à appliquer le traitement au
dernier moment, et non dès la réception du
message. Pourquoi ? Pour se donner plus de chances de profiter
d’informations complémentaires (mises à
jour, nouvelles signatures de spam, etc.)
• L’utilisation d’un algorithme basé
sur les chaînes de Markov (prise en compte de groupes
de mots en attribuant des poids proportionnels au nombre
de mots considérés). Sur 9000 messages il
obtient une précision de 99,95%
• L’entraînement des filtres bayésiens
suivant l’une de ces trois techniques : TEFT (Train
on EveryThing), éducation permanente sur tous les
messages ; TOE (Train On Errors), éducation uniquement
sur les erreurs ; TUNE (Train Until No Errors), éducation
jusqu’à la disparition des erreurs. Bill indique
obtenir les meilleurs résultats avec cette dernière
technique, malgré l’obligation de stocker tous
les messages.
Bill
Yerazunis s’est également penché sur
la gestion des bases de mots clés, il a constaté,
sans pouvoir l’expliquer, que l’effacement aléatoire
de quelques hapax (occurrences uniques) donnait de meilleurs
résultats.
Jonathan
Zdziarski travaille avec Bill Yerazunis sur un RFC
portant sur « l’inoculation » (mise
en commun de la signature des spams). Il a fait part
de ses travaux pour adapter les filtres bayésiens
à l’environnement de l’entreprise.
Pour lui, deux points essentiels doivent être
soignés : rapidité de traitement et
ergonomie (projet DSPAM). |
|
 |
Miles
Libbey, Anti-Spam Product Manager chez Yahoo!, est
revenu sur les propos de Terry Sullivan concernant
la faible mutation du spam. Or, ses équipes
constatent que les spammeurs réagissent quelquefois
en une heure à leurs règles de filtrage.
Concernant les attaques de dictionnaire, il indique
que la simple croissance du nombre d’internautes
donne d’avantage de probabilités aux
spammeurs pour deviner leurs adresses e-mail.
Pour lui, l’année 2003 aura surtout
été marquée par l’ingéniosité
des spammeurs pour éviter d’être
identifiés : open proxies, PC zombis,…
|
John Graham-Cumming, créateur du filtre bayésien
Popfile et directeur de la recherche pour l’Anti-Apam
Task Force de Sophos, a commencé par indiquer
son analyse des faux négatifs (125 sur 52.000 messages)
générés par son outil :
• 52% correspondent à des « picospams
» (spams minimalistes, qui ne comportent qu’une
url)
• 13% correspondent à des messages encodés
en RTF (Rich Text Format). Il reconnaît lui-même
que ces spams auraient du être détectés
par un filtre ayant déjà traité des
courriels de ce type.
• 9% des cas étaient des faux messages «
Challenge/Response » renvoyant vers le site d’un
spammeur. D’après lui, le détournement
par les spammeurs de cette technique est très inquiétant.
Les initiatives de type « Challenge/Response »
risquent de perdre leur crédibilité auprès
des internautes.
• 9% correspondent à de faux Non Delivery Report
(rapports de non livraison). A nouveau, quelle confiance
peut-on désormais accorder aux NDR ?
• 4% des faux négatifs étaient tout
simplement vides !
• 13% (soit deux messages) correspondaient à
des publicités pour des logiciels anti-spam.
John
Graham-Cumming cherche à avoir un coup d’avance
sur les spammeurs. Il a cherché les contre-mesures
que ceux-ci pourraient exploiter pour contourner les filtres
bayésiens. Il a identifié une technique qui
permettrait aux spammeurs d’identifier les mots clés
associés aux messages légitimes attendus par
chaque internaute. Cette méthode utilisant l’analyse
des retours (NDR, web bugs, Challenge/Response, bounce,
etc.), il est impératif de rester furtif et de ne
pas signaler l’ouverture des spams. Pour l’anecdote,
il a utilisé pour ce faire un filtre bayésien
! John a repris en conclusion la recommandation de ne pas
s’appuyer sur une seule technologie de filtrage.
Notre
commentaire : les dernières astuces utilisées
par les spammeurs érodent d’avantage la confiance
qu’ont les internautes dans l’outil e-mail.
Par exemple, si l’on décide de détruire
les spams ayant l’aspect des NDR, on se prive des
véritables messages de non livraison.
Peter
Kay, de Titan Key basé à Hawaï,
a présenté une approche novatrice qui
arrête le spam à l’émission.
Elle s’appuie sur une maîtrise totale
des adresses e-mail.Ce concept se rattache aux solutions
d’adresses gérables que nous avions présentées
lors du Spam Forum Paris.Lorsque vous communiquez
une adresse, vous en contrôlez tous les attributs
: durée de vie, domaines associés à
l’émetteur… |
|
Même
dans le cas où l’on a divulgué une adresse
trop « laxiste », il est possible d’en
modifier les règles : n’accepter que des messages
issus d’émetteurs qui ont déjà
communiqué avec nous, activer un Challenge/Response…
Notre
commentaire : Ces solutions sont prometteuses.
Leur succès dépend de leur facilité
d’utilisation.
 |
Eric
Raymond, un pionnier d’Unix et de GNU, a présenté
le projet SPF (Sender Policy Framework). Ce mécanisme
évite la falsification des entêtes. Un
nouveau champ indique les machines ayant le droit
d’émettre des messages depuis un domaine.
Aucune
mise à jour des services DNS n’est nécessaire
à part la création de ce record. Par
contre, les serveurs SMTP devront bénéficier
des dernières versions (Sendmail intègre
déjà cette nouvelle caractéristique). |
|
Eric Raymond signale lui même un inconvénient
: les utilisateurs nomades ne pourraient émettre
des messages qu’en utilisant des protocoles d’authentification
ou des VPN.
Notre
commentaire : Cette technique facilitera l’identification
des spammeurs. Son succès repose toutefois sur son
application. Quand on connaît l’état
des DNS, on peut avoir quelques doutes…
 |
Richard Jowsey a développé un des
premiers filtres baysésiens – appelé
Death2Spam – destiné aux entreprises
et aux FAI. Son exposé a porté sur
les adaptations nécessaires pour assurer
la mise en commun, au sein d’une entreprise,
de la base de mots clés.
Richard a conclu : « avec un taux de filtrage
supérieur à 99% et un taux de faux
positifs inférieur à 0,01%, les utilisateurs
vous adorent ! »
|
En
complément de ces réflexions d’ordre
technique, Paul Graham avait convié deux avocats
américains, pour évoquer la toute récente
loi fédérale CAN-SPAM.
Jon
Praed de Internet Law Group, peut se targuer de nombreux
succès face aux spammeurs avec un cumul de
dix millions de dollars obtenus sur une douzaine de
procès. Il confirme que toutes les poursuites
sont utiles. Les avocats prêts à défendre
les spammeurs sont de moins en moins nombreux. De
plus il constate que les condamnés ne font
jamais appel. Même en cas d’acquittement,
on peut ressentir comme une victoire le temps et les
ressources mobilisées par le spammeur. |
|
A
une question de la salle concernant un tel scenario, l’avocat
à décrit le cas récent dans lequel
deux techniciens ont, pour le moment, échappé
à un procès en Virginie pour être jugés
en Floride. Les spams étaient envoyés depuis
vingt serveurs localisés dans cet état. En
attendant, le cerveau de l’opération, un américain
résidant en Thaïlande, à été
condamné. Ce cas illustre une bonne coopération
internationale. Les pays qui ne prendront pas une attitude
proactive face au spam courent simplement le risque de se
voir coupés d’Internet.
Jon
Praed note que les spammeurs constituent une petite communauté
: avocats communs, collaboration… Au plus, un seul
intermédiaire sépare deux spammeurs (transactions
financières ou communication). Identifier l’un
d’entre eux permet d’accéder à
un autre.
Avec
CAN-SPAM, l’avocat juge désormais l’arsenal
juridique suffisant.
Notre
commentaire : On peut rappeler l’information
délivrée par Microsoft lors de cette conférence,
selon laquelle 70% des spams pourraient être émis
depuis l’étranger. Malgré les lois pour
faire la chasse à l’argent sale, les paradis
fiscaux sont toujours là…
Nous avons fortement apprécié l’une
des dispositions de la loi CAN-SPAM, qui permet d’impliquer
les donneurs d’ordre. Barry Schein, président
du FAI « The World », et intervenant de l’édition
précédente, nous a confié faire la
même analyse. Par ailleurs, au contraire de l’image
que nous en avons, il perçoit les spammeurs comme
étant assez vulnérables.
 |
Matthew
Prince, avocat de la société Unspam,
apporte son aide aux législateurs (dont le
sénateur Schumer) pour rédiger des
textes efficaces. Pour sa part, il est moins optimiste
quant à l’efficacité de CAN-SPAM.
|
Il
constate que par le passé, les lois au niveau des
états, dont certaines étaient plus strictes
que le texte fédéral, se sont avérées
peu efficaces. Il note que c’est l’état
de Washington qui a obtenu les meilleurs résultats,
d’après lui grâce à la liste d’opposition.
Il appelle de tous ces vœux une liste « Do not
spam » au niveau fédéral.
Matthew Prince s’étonne que plus d’attention
ne soit pas porté à la phase de collecte des
adresses par les spammeurs. Pour les adresses publiées
sur les sites Web, il recommande d’ajouter une mention
de copyright.
Notre
Commentaire : Concernant la « Do not Spam list »,
il faut rappeler que le gouvernement à commandé
une étude de faisabilité à la FTC.
Par le passé, celle-ci n’a jamais caché
son opposition à une telle idée.
Pour
ce qui est de la collecte des données personnelles,
la France dispose d’une telle protection depuis 1978,
avec la loi Informatique et Libertés.
Vous
pouvez également visiter les pages suivantes, en
complément :