SUCHOMEL, Vít. Removing spam from web corpora through supervised learning using FastText. Birmingham, 2017.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Removing spam from web corpora through supervised learning using FastText
Autoři SUCHOMEL, Vít.
Vydání Birmingham, 2017.
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Stát vydavatele Německo
Utajení není předmětem státního či obchodního tajemství
WWW Sborník konference
Organizační jednotka Fakulta informatiky
Klíčová slova anglicky Text corpora;Web spam;Supervised learning;FastText
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 27. 11. 2018 13:34.
Anotace
Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer ge- nerated text from web corpora. The paper also presents a keyword com- parison of an unfiltered corpus with the same collection of texts cleaned by a su- pervised classifier trained using FastText. The classifier was able to recognise 71 % of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.
Návaznosti
LM2015071, projekt VaVNázev: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VytisknoutZobrazeno: 26. 4. 2024 06:17