2010
Fast syntactic searching in very large corpora for many languages
JAKUBÍČEK, Miloš, Pavel RYCHLÝ, Adam KILGARRIFF a Diana MCCARTHYZákladní údaje
Originální název
Fast syntactic searching in very large corpora for many languages
Název česky
Rychlé syntaktické vyhledávání ve velkých korpusech pro mnoho jazyků
Autoři
JAKUBÍČEK, Miloš (203 Česká republika, garant), Pavel RYCHLÝ (203 Česká republika), Adam KILGARRIFF (826 Velká Británie a Severní Irsko) a Diana MCCARTHY (826 Velká Británie a Severní Irsko)
Vydání
Tokyo, PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation, od s. 741-747, 7 s. 2010
Nakladatel
Waseda University
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Japonsko
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/10:00045408
Organizační jednotka
Fakulta informatiky
ISBN
978-4-905166-00-9
Klíčová slova česky
vyhledávání v korpusu; velké korpusy; CQL; syntaktické vyhledávání
Klíčová slova anglicky
corpus search; large corpora; CQL; syntactic search
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 18. 11. 2010 09:39, RNDr. Miloš Jakubíček, Ph.D.
V originále
For many linguistic investigations, the first step is to find examples. In the 21st century, they should all be found, not invented. Thus linguists need flexible tools for finding even quite rare phenomena. To support linguists well, they need to be fast even where corpora are very large and queries are complex. We present extensions to the CQL ("Corpus Query Language") for intuitive creation of syntactically rich queries, and demonstrate that they can be computed quickly within our tool even on multi-billion word corpora.
Česky
Prvním krokem pro mnoho lingvistických výzkumů je vyhledání příkladů. V 21. století by tyto příklady měly být vždy vyhledávány, nikoli vymýšleny. Proto potřebují lingvisté flexibilní nástroje pro vyhledávání i okrajových jazykových jevů. Takové vyhledávání musí být navíc rychlé i pro velké korpusy a složité dotazy. Představujeme rozšíření ke korpusovému dotazovacímu jazyku CQL pro intuitivní vytváření syntaktických dotazů a ukážeme, že tyto dotazy mohou být rychle vyhodnocovány našimi nástroji i pro korpusy o velikostech v řádech miliard pozic.
Návaznosti
GAP401/10/0792, projekt VaV |
| ||
GA407/07/0679, projekt VaV |
| ||
LC536, projekt VaV |
| ||
2C06009, projekt VaV |
| ||
248307, interní kód MU |
|