POMIKÁLEK, Jan, Pavel RYCHLÝ a Miloš JAKUBÍČEK. Building a 70 billion word corpus of English from ClueWeb. In Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis. Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12). Istanbul, Turkey: European Language Resources Association (ELRA), 2012. s. 502-506. ISBN 978-2-9517408-7-7.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Building a 70 billion word corpus of English from ClueWeb
Autoři POMIKÁLEK, Jan (203 Česká republika, domácí), Pavel RYCHLÝ (203 Česká republika, domácí) a Miloš JAKUBÍČEK (203 Česká republika, garant, domácí).
Vydání Istanbul, Turkey, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12), od s. 502-506, 5 s. 2012.
Nakladatel European Language Resources Association (ELRA)
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/12:00057572
Organizační jednotka Fakulta informatiky
ISBN 978-2-9517408-7-7
UT WoS 000323927700080
Klíčová slova anglicky corpus; clueweb; English; encoding; word sketch
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Změněno: 9. 4. 2013 11:19.
Anotace
This work describes the process of creation of a 70 billion word text corpus of English. We used an existing language resource, namely the ClueWeb09 dataset, as source for the corpus data. Processing such a vast amount of data presented several challenges, mainly associated with pre-processing (boilerplate cleaning, text de-duplication) and post-processing (indexing for efficient corpus querying using the CQL – Corpus Query Language) steps. In this paper we explain how we tackled them: we describe the tools used for boilerplate cleaning (jusText) and for de-duplication (onion) that was performed not only on full (document-level) duplicates but also on the level of near-duplicate texts. Moreover we show the impact of each of the performed pre-processing steps on the final corpus size. Furthermore we show how effective parallelization of the corpus indexation procedure was employed within the Manatee corpus management system and during computation of word sketches (one-page, automatic, corpus-derived summaries of a word’s grammatical and collocational behaviour) from the resulting corpus.
Návaznosti
GAP401/10/0792, projekt VaVNázev: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
LM2010013, projekt VaVNázev: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
248307, interní kód MUNázev: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce
Typ Název Vložil/a Vloženo Práva
lrec2012.pdf   Verze souboru Jakubíček, M. 6. 12. 2012

Vlastnosti

Adresa v ISu
https://is.muni.cz/auth/publication/991165/lrec2012.pdf
Adresa ze světa
https://is.muni.cz/publication/991165/lrec2012.pdf
Adresa do Správce
https://is.muni.cz/auth/publication/991165/lrec2012.pdf?info
Ze světa do Správce
https://is.muni.cz/publication/991165/lrec2012.pdf?info
Vloženo
Čt 6. 12. 2012 15:17, RNDr. Miloš Jakubíček, Ph.D.

Práva

Právo číst
  • kdokoliv v Internetu
Právo vkládat
 
Právo spravovat
  • osoba RNDr. Miloš Jakubíček, Ph.D., učo 172962
  • osoba doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
  • osoba RNDr. Jan Pomikálek, Ph.D., učo 45523
Atributy
 

lrec2012.pdf

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/991165/lrec2012.pdf
Adresa ze světa
http://is.muni.cz/publication/991165/lrec2012.pdf
Typ souboru
PDF (application/pdf)
Velikost
160,7 KB
Hash md5
6f5fb560dd9243fb292b79e4a23303db
Vloženo
Čt 6. 12. 2012 15:17

lrec2012.txt

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/991165/lrec2012.txt
Adresa ze světa
http://is.muni.cz/publication/991165/lrec2012.txt
Typ souboru
holý text (text/plain)
Velikost
19,7 KB
Hash md5
1ef82cb09395982ce01278b845f66af5
Vloženo
Čt 6. 12. 2012 15:18
Vytisknout
Nahlásit neoprávněně vložený soubor Zobrazeno: 30. 6. 2022 16:33