Building a 70 billion word corpus of English from ClueWeb

POMIKÁLEK, Jan, Pavel RYCHLÝ a Miloš JAKUBÍČEK. Building a 70 billion word corpus of English from ClueWeb. In Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis. Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12). Istanbul, Turkey: European Language Resources Association (ELRA), 2012, s. 502-506. ISBN 978-2-9517408-7-7.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Building a 70 billion word corpus of English from ClueWeb
Autoři	POMIKÁLEK, Jan (203 Česká republika, domácí), Pavel RYCHLÝ (203 Česká republika, domácí) a Miloš JAKUBÍČEK (203 Česká republika, garant, domácí).
Vydání	Istanbul, Turkey, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), od s. 502-506, 5 s. 2012.
Nakladatel	European Language Resources Association (ELRA)

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
WWW	URL
Kód RIV	RIV/00216224:14330/12:00057572
Organizační jednotka	Fakulta informatiky
ISBN	978-2-9517408-7-7
UT WoS	000323927700080
Klíčová slova anglicky	corpus; clueweb; English; encoding; word sketch
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Změněno: 9. 4. 2013 11:19.

Anotace

This work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL – Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processing steps on the final corpus size. Furthermore we show how effective parallelization of the corpus indexation procedure was employed within the Manatee corpus management system and during computation of word sketches (one-page, automatic, corpus-derived summaries of a word’s grammatical and collocational behaviour) from the resulting corpus.

Návaznosti
GAP401/10/0792, projekt VaV	Název: Temporální aspekty znalostí a informací
GAP401/10/0792, projekt VaV	Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
LM2010013, projekt VaV	Název: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
LM2010013, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
248307, interní kód MU	Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
248307, interní kód MU	Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce

Typ	Název	Vložil/a	Vloženo
	lrec2012.pdf	Jakubíček, M.	6. 12. 2012
Vlastnosti Adresa v ISu https://is.muni.cz/auth/publication/991165/lrec2012.pdf Adresa ze světa https://is.muni.cz/publication/991165/lrec2012.pdf Adresa do Správce https://is.muni.cz/auth/publication/991165/lrec2012.pdf?info Ze světa do Správce https://is.muni.cz/publication/991165/lrec2012.pdf?info Vloženo Čt 6. 12. 2012 15:17, RNDr. Miloš Jakubíček, Ph.D. Práva Právo číst kdokoliv v Internetu osoba RNDr. Miloš Jakubíček, Ph.D., učo 172962 osoba doc. Mgr. Pavel Rychlý, Ph.D., učo 3692 osoba RNDr. Jan Pomikálek, Ph.D., učo 45523 Právo vkládat Právo spravovat osoba RNDr. Miloš Jakubíček, Ph.D., učo 172962 osoba doc. Mgr. Pavel Rychlý, Ph.D., učo 3692 osoba RNDr. Jan Pomikálek, Ph.D., učo 45523 Atributy lrec2012.pdf Aplikace Otevřít soubor. Stáhnout soubor. Adresa v ISu https://is.muni.cz/auth/publication/991165/lrec2012.pdf Adresa ze světa https://is.muni.cz/publication/991165/lrec2012.pdf Typ souboru PDF (application/pdf) Velikost 160,7 KB Hash md5 6f5fb560dd9243fb292b79e4a23303db Vloženo Čt 6. 12. 2012 15:17 lrec2012.txt Aplikace Otevřít soubor. Stáhnout soubor. Adresa v ISu https://is.muni.cz/auth/publication/991165/lrec2012.txt Adresa ze světa https://is.muni.cz/publication/991165/lrec2012.txt Typ souboru holý text (text/plain) Velikost 19,7 KB Hash md5 1ef82cb09395982ce01278b845f66af5 Vloženo Čt 6. 12. 2012 15:18

Vytisknout
Nahlásit neoprávněně vložený soubor Zobrazeno: 5. 10. 2024 09:22

Building a 70 billion word corpus of English from ClueWeb

Vlastnosti

Práva

lrec2012.pdf

lrec2012.txt

Další aplikace