SUCHOMEL, Vít. Removing Spam from Web Corpora Through Supervised Learning and Semi-manual Classification of Web Sites. Online. In Aleš Horák. Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020. Brno: Tribun 2020, 2020. s. 113-123. ISBN 978-80-263-1600-8. [citováno 2024-04-23]
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Removing Spam from Web Corpora Through Supervised Learning and Semi-manual Classification of Web Sites
Autoři SUCHOMEL, Vít (203 Česká republika, garant, domácí)
Vydání Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 113-123, 11 s. 2020.
Nakladatel Tribun 2020
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Domovská stránka workshopu PDF ve sborníku
Kód RIV RIV/00216224:14330/20:00117841
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1600-8
ISSN 2336-4289
Klíčová slova anglicky web corpora; web spam; supervised learning
Štítky machine learning, spam, web corpora
Příznaky Mezinárodní význam
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 10. 5. 2021 06:19.
Anotace
Internet spam is a major issue hindering the usefulness of web corpora. Unlike traditional text corpora collected from trustworthy sources, the content of web based corpora has to be cleaned. In this paper, two experiments of non-text removal based on supervised learning are presented. First, an improvement of corpus based language analyses of selected words achieved by a supervised classifier is shown on an English web corpus. Then, a semi-manual approach of obtaining samples of non-text web pages in Estonian is introduced. This strategy makes the supervised learning process more efficient. The result spam classifiers are tuned for high recall at the cost of precision to remove as much non-text as possible. The evaluation shows the classifiers reached the recall of 71 % and 97 % for English and Estonian web corpus, respectively. A technique for avoiding spammed web sites by measuring the distance of web pages from trustworthy sites is studied too.
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 23. 4. 2024 14:37