Spam filtering - a succesful solution
(e.g. at FI)
Marek González
1/6
dSpam
• součást antispamové ochrany na FI
• statistický bayesovský filtr
• automatické, nepřetržité učení
2/6
Učení
• učení s učitelem
• pozitivní data (spamy) přes honeypot nebo na
spam@fi.muni.cz
• negativní data (hamy) na notspam@fi.muni.cz
3/6
Tokenizace
metody:
1) word
2) chain
3) orthogonal sparse bigram
4) sparse binary polynomial
hashing
4/6
“Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht”
word – co slovo to token chain – token 2 slova po sobě
OSB – pro každé slovo +/- 4 sliding window
SPBH – podobné jako OSB, uvažuje ale i slova nejen na
hranici sliding window. Navíc tokeny mají váhy podle
počtu slov, ze kterých jsou složeny.
Klasifikace
• 4 klasifikátory Naive Bayesian,Graham-Bayesian, Burton-Bayesian,Fisher-Robinson's ChiSquare
Algorithm , lze kombinovat.
• Klasifikátor neanalyzuje všechny tokeny. Pouze X nejvýznamnějších.
• Neuvažuje se vícenásobný výskyt tokenů.
• Záleží na použitém klasifikátoru.
Zpráva: “Hi! Buy Viagra.”
Slovník:
5/6
Token Počet ve spamu (s) Počet v hamu (h) p(spam) = s/(s+h)
Hi 25 62 0.29
Buy 157 87 0.64
Viagra 231 11 0.95
Výpočet:
S = 0.29 * 0.64 * 0.95 = 0.176
H = (1-0.29) * (1-0.64) * (1-0.95) = 0.71 * 0.36 * 0.05 = 0.0127
Pvalue = S / (S + H) = 0,176 / (0,176 + 0.0127) = 0.93
Zdroje
• http://wiki.linuxwall.info/doku.php/en:ressour
ces:dossiers:dspam#method_of_detection
• http://www.fi.muni.cz/tech/unix/spamy-a-
viry.xhtml
6/6