D 2017

Removing spam from web corpora through supervised learning using FastText

SUCHOMEL, Vít

Základní údaje

Originální název

Removing spam from web corpora through supervised learning using FastText

Autoři

Vydání

Birmingham, 2017

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Stát vydavatele

Německo

Utajení

není předmětem státního či obchodního tajemství

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

Text corpora;Web spam;Supervised learning;FastText

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 11. 2018 13:34, RNDr. Vít Suchomel, Ph.D.

Anotace

V originále

Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be filtered. This study briefly discusses the impact of web spam on corpus usability and emphasizes the importance of removing computer ge- nerated text from web corpora. The paper also presents a keyword com- parison of an unfiltered corpus with the same collection of texts cleaned by a su- pervised classifier trained using FastText. The classifier was able to recognise 71 % of web spam documents similar to the training set but lacked both precision and recall when applied to short texts from another data set.

Návaznosti

LM2015071, projekt VaV
Název: Jazyková výzkumná infrastruktura v České republice (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum