2011
Practical Web Crawling for Text Corpora
SUCHOMEL, Vít a Jan POMIKÁLEKZákladní údaje
Originální název
Practical Web Crawling for Text Corpora
Název česky
Praktické automatické stahování z webu pro textové korpusy
Autoři
Vydání
Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011, od s. 97-108, 12 s. 2011
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/11:00050166
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-0077-9
UT WoS
000374561700011
Klíčová slova česky
crawler; automatické stahování z webu; korpus; webový korpus; textový korpus
Klíčová slova anglicky
crawler; web crawling; corpus; web corpus; text corpus
Změněno: 25. 5. 2021 19:18, RNDr. Vít Suchomel, Ph.D.
V originále
SpiderLing--a web spider for linguistics--is new software for creating text corpora from the web, which we present in this article. Many documents on the web only contain material which is not useful for text corpora, such as lists of links, lists of products, and other kind of text not comprised of full sentences. In fact such pages represent the vast majority of the web. Therefore, by doing unrestricted web crawls, we typically download a lot of data which gets filtered out during post-processing. This makes the process of web corpus collection inefficient. The aim of our work is to focus the crawling on the text rich parts of the web and maximize the number of words in the final corpus per downloaded megabyte. We present our preliminary results from creating Web corpora of texts in Czech and Tajik.
Česky
SpiderLing -- automatický stahovač dokumentů z internetu pro lingvistiku -- je nový software pro tvorbu textových korpusů z webu, který uvádíme v tomto článku. Mnoho dokumentů na webu obsahuje pouze materiál, který není vhodný pro textové korpusy, jako seznamy seznamy odkazů, seznamy produktů a dalších druhy textů neskládající se z celých vět. Ve skutečnosti tyto stránky představují drtivou většinu webu. Nepřizpůsobeným stahováním jsme zpravidla získali velké množství dat, která byla odfiltrována při následném zpracování. To činí proces získávání webových textů neefektivním. Cílem naší práce je zaměřit se na stahování částí internetu bohatých na text a maximalizovat počet slov ve výsledném souboru na stažený megabyte. Prezentujeme předběžné výsledky dosažené při vytváření textových webových korpusů v češtině a tádžické perštině.
Návaznosti
| GAP401/10/0792, projekt VaV |
| ||
| LC536, projekt VaV |
| ||
| 248307, interní kód MU |
|