D 2011

Practical Web Crawling for Text Corpora

SUCHOMEL, Vít a Jan POMIKÁLEK

Základní údaje

Originální název

Practical Web Crawling for Text Corpora

Název česky

Praktické automatické stahování z webu pro textové korpusy

Vydání

Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011, od s. 97-108, 12 s. 2011

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/11:00050166

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-0077-9

UT WoS

000374561700011

Klíčová slova česky

crawler; automatické stahování z webu; korpus; webový korpus; textový korpus

Klíčová slova anglicky

crawler; web crawling; corpus; web corpus; text corpus
Změněno: 25. 5. 2021 19:18, RNDr. Vít Suchomel, Ph.D.

Anotace

V originále

SpiderLing--a web spider for linguistics--is new software for creating text corpora from the web, which we present in this article. Many documents on the web only contain material which is not useful for text corpora, such as lists of links, lists of products, and other kind of text not comprised of full sentences. In fact such pages represent the vast majority of the web. Therefore, by doing unrestricted web crawls, we typically download a lot of data which gets filtered out during post-processing. This makes the process of web corpus collection inefficient. The aim of our work is to focus the crawling on the text rich parts of the web and maximize the number of words in the final corpus per downloaded megabyte. We present our preliminary results from creating Web corpora of texts in Czech and Tajik.

Česky

SpiderLing -- automatický stahovač dokumentů z internetu pro lingvistiku -- je nový software pro tvorbu textových korpusů z webu, který uvádíme v tomto článku. Mnoho dokumentů na webu obsahuje pouze materiál, který není vhodný pro textové korpusy, jako seznamy seznamy odkazů, seznamy produktů a dalších druhy textů neskládající se z celých vět. Ve skutečnosti tyto stránky představují drtivou většinu webu. Nepřizpůsobeným stahováním jsme zpravidla získali velké množství dat, která byla odfiltrována při následném zpracování. To činí proces získávání webových textů neefektivním. Cílem naší práce je zaměřit se na stahování částí internetu bohatých na text a maximalizovat počet slov ve výsledném souboru na stažený megabyte. Prezentujeme předběžné výsledky dosažené při vytváření textových webových korpusů v češtině a tádžické perštině.

Návaznosti

GAP401/10/0792, projekt VaV
Název: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
248307, interní kód MU
Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce