J 2009

Scaling to Billion-plus Word Corpora

POMIKÁLEK, Jan, Pavel RYCHLÝ a Adam KILGARRIFF

Základní údaje

Originální název

Scaling to Billion-plus Word Corpora

Název česky

Miliardové korpusy

Autoři

POMIKÁLEK, Jan (203 Česká republika, garant), Pavel RYCHLÝ (203 Česká republika) a Adam KILGARRIFF (826 Velká Británie a Severní Irsko)

Vydání

Advances in Computational Linguistics, Mexiko, Instituto Politécnico Nacional, 2009, 1870-4069

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Mexiko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/09:00035368

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

word corpora; web as corpus; duplicate detection

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 30. 3. 2010 11:46, doc. Mgr. Pavel Rychlý, Ph.D.

Anotace

V originále

Most phenomena in natural languages are distributed in accordance with Zipf's law, so many words, phrases and other items occur rarely and we need very large corpora to provide evidence about them. Previous work shows that it is possible to create very large (multi-billion word) corpora from the web. The usability of such corpora is often limited by duplicate contents and a lack of efficient query tools. This paper describes BiWeC, a Big Web Corpus of English texts currently comprising 5.5b words fully processed, and with a target size of 20b. We present a method for detecting near-duplicate text documents in multi-billion-word text collections and describe how one corpus query tool, the Sketch Engine, has been re-engineered to efficiently encode, process and query such corpora on low-cost hardware.

Česky

Většina jevů v přirozených jazycích je rozložena v souladu se Zipfovým zákonem, takže mnoho slov a frází se vyskytuje řídce. Abychom tato slova a fráze mohli studovat, potřebujeme velmi velké textové korpusy. V předchozí práci bylo ukázáno, že je možné vytvořit velmi velké korpusy (v řádu miliard slov) z webu. Takové korpusy však často obsahují duplicitní dokumenty, což snižuje jejich užitnost. Dalším problémem bývá nedostupnost efektivních nástrojů pro dotazování nad tak velkými korpusy. Tento článek popisuje BiWeC, velký webový korpus (Big Web Corpus) anglických textů, plně zpracovaný a v současnosti obsahující 5,5 mld. slov. Cílová velikost korpusu je 20 mld. slov. Představujeme metodu pro detekci blízkých textových dokumentů v textových kolekcích obsahujících několik miliard slov. Dále popisujeme, jak jsme přepracovali korpusový manažer Sketch Engine, abychom umožnili efektivní zpracování miliardových korpusů s použitím běžně dostupného hardwaru.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce