2017
Removing spam from web corpora through supervised learning using FastText
SUCHOMEL, VítZákladní údaje
Originální název
Removing spam from web corpora through supervised learning using FastText
Autoři
Vydání
Birmingham, 2017
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Stát vydavatele
Německo
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Organizační jednotka
Fakulta informatiky
Klíčová slova anglicky
Text corpora;Web spam;Supervised learning;FastText
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 27. 11. 2018 13:34, RNDr. Vít Suchomel, Ph.D.
Anotace
V originále
Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer ge- nerated text from web corpora. The paper also presents a keyword com- parison of an unfiltered corpus with the same collection of texts cleaned by a su- pervised classifier trained using FastText. The classifier was able to recognise 71 % of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.
Návaznosti
LM2015071, projekt VaV |
|