2012
Building a 70 billion word corpus of English from ClueWeb
POMIKÁLEK, Jan, Pavel RYCHLÝ a Miloš JAKUBÍČEKZákladní údaje
Originální název
Building a 70 billion word corpus of English from ClueWeb
Autoři
POMIKÁLEK, Jan (203 Česká republika, domácí), Pavel RYCHLÝ (203 Česká republika, domácí) a Miloš JAKUBÍČEK (203 Česká republika, garant, domácí)
Vydání
Istanbul, Turkey, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), od s. 502-506, 5 s. 2012
Nakladatel
European Language Resources Association (ELRA)
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Kód RIV
RIV/00216224:14330/12:00057572
Organizační jednotka
Fakulta informatiky
ISBN
978-2-9517408-7-7
UT WoS
000323927700080
Klíčová slova anglicky
corpus; clueweb; English; encoding; word sketch
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 9. 4. 2013 11:19, RNDr. Miloš Jakubíček, Ph.D.
Anotace
V originále
This work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL – Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processing steps on the final corpus size. Furthermore we show how effective parallelization of the corpus indexation procedure was employed within the Manatee corpus management system and during computation of word sketches (one-page, automatic, corpus-derived summaries of a word’s grammatical and collocational behaviour) from the resulting corpus.
Návaznosti
GAP401/10/0792, projekt VaV |
| ||
LM2010013, projekt VaV |
| ||
248307, interní kód MU |
|