D 2007

An efficient algorithm for building a distributional thesaurus

RYCHLÝ, Pavel a Adam KILGARRIFF

Základní údaje

Originální název

An efficient algorithm for building a distributional thesaurus

Název česky

Efektivní algoritmu pro vytváření distribučního thesauru

Autoři

RYCHLÝ, Pavel a Adam KILGARRIFF

Vydání

Prague, Czech Republic, Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, od s. 41-44, 4 s. 2007

Nakladatel

Association for Computational Linguistics

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/07:00019564

Organizační jednotka

Fakulta informatiky

ISBN

978-1-932432-86-2

Klíčová slova anglicky

text corpus; distributional thesaurus

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 11. 2. 2008 12:12, doc. Mgr. Pavel Rychlý, Ph.D.

Anotace

V originále

Gorman and Curran (2006) argue that thesaurus generation for billion+-word corpora is problematic as the full computation takes many days. We present an algorithm with which the computation takes under two hours. We have created, and made publicly available, thesauruses based on large corpora for (at time of writing) seven major world languages. The development is implemented in the Sketch Engine.

Česky

Gorman and Curran (2006) diskutují, že vytvoření distributivního thesauru z korpusu o velikosti větěší než miliarda slov je problematické, protože úplný výpočet může trvat mnoho dní. My prezentujeme algoritmus, který zvládne výpočet do dvou hodin.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
1ET100300419, projekt VaV
Název: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Akademie věd ČR, Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce