D 2012

Efficient Web Crawling for Large Text Corpora

SUCHOMEL, Vít a Jan POMIKÁLEK

Základní údaje

Originální název

Efficient Web Crawling for Large Text Corpora

Název česky

Efektivní automatické stahování z webu pro velké textové korpusy

Autoři

SUCHOMEL, Vít a Jan POMIKÁLEK

Vydání

Lyon, Proceedings of the seventh Web as Corpus Workshop (WAC7), od s. 39-43, 5 s. 2012

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

crawler; automatické stahování z webu; korpus; webový korpus; textový korpus

Klíčová slova anglicky

crawler; web crawling; corpus; web corpus; text corpus

Štítky

Příznaky

Mezinárodní význam
Změněno: 9. 4. 2013 11:49, RNDr. Vít Suchomel, Ph.D.

Anotace

V originále

Many researchers use texts from the web, an easy source of linguistic data in a great variety of languages. Building both large and good quality text corpora is the challenge we face nowadays. We describe how to deal with inefficient data downloading and how to focus crawling on text rich web domains. We present efficiency figures from crawling texts in American Spanish, Czech, Japanese, Russian, Tajik Persian, Turkish and the sizes of the resulting corpora. The idea has been successfully applied for building billions of words scale corpora in six languages. Texts in the Russian corpus, consisting of 20.2 billions tokens, were downloaded in just 13 days.