SUCHOMEL, Vít a Jan KRAUS. Website Properties in Relation to the Quality of Text Extracted for Web Corpora. In Horák, Rychlý, Rambousek. Recent Advances in Slavonic Natural Language Processing (RASLAN 2021). Brno: Tribun EU, 2021, s. 167-175. ISBN 978-80-263-1670-1.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Website Properties in Relation to the Quality of Text Extracted for Web Corpora
Autoři SUCHOMEL, Vít (203 Česká republika, garant, domácí) a Jan KRAUS (203 Česká republika).
Vydání Brno, Recent Advances in Slavonic Natural Language Processing (RASLAN 2021), od s. 167-175, 9 s. 2021.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10200 1.2 Computer and information sciences
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Full text PDF Domovská stránka workshopu
Kód RIV RIV/00216224:14330/21:00123254
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1670-1
ISSN 2336-4289
Klíčová slova anglicky Web crawling; Web spam; Text corpus; Text processing
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 15. 5. 2024 02:16.
Anotace
In this paper we present our research concerning the relation between two properties of websites and the quality of the text extracted from a website in the context of crawling the web and building large web corpora. A manual classification of text quality of 18 thousand websites from 21 European languages was used to verify our assumption that certain web domain properties can be used to identify potential sources of bad quality content. The first property is the distance of a web domain from the seed domains in a web crawl. The second property studied in this work is the length of the website name. Although these properties were recommended to help identify good quality websites in our previous work, in this paper we show there is only a small difference between the quality of text-rich web domains with various seed distances or name lengths. This conclusion holds for the post-crawling text processing when starting the web crawl with a large amount of seed domains.
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 23. 7. 2024 06:31