KILGARRIFF, Adam a Vít SUCHOMEL. Web Spam. Online. In Stefan Evert , Egon Stemle, Paul Rayson. Proceedings of the 8th Web as Corpus Workshop (WAC-8) @Corpus Linguistics 2013. 2013, s. 46-52.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Web Spam
Autoři KILGARRIFF, Adam a Vít SUCHOMEL.
Vydání Proceedings of the 8th Web as Corpus Workshop (WAC-8) @Corpus Linguistics 2013, od s. 46-52, 7 s. 2013.
Další údaje
Typ výsledku Stať ve sborníku
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW Konferenční sborník Webové stránky konference
Organizační jednotka Fakulta informatiky
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 5. 3. 2024 11:47.
Anotace
Web spam is getting worse. The biggest difference between our 2008 and 2012 corpora, both crawled in the same way, is web spam. In this paper we talk about what it is, with examples and a discussion of the overlap with ‘legitimate’ marketing material, and present some ideas about how we might identify it automatically in order to filter it out of our web corpora. We also present some linguistic observations that could prove useful for spam identification, and some data relating to changes we have observed between 2008 and 2012.
Návaznosti
LM2010005, projekt VaVNázev: Velká infrastruktura CESNET (Akronym: VI CESNET)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Velká infrastruktura CESNET
LM2010013, projekt VaVNázev: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VytisknoutZobrazeno: 26. 4. 2024 12:04