D 2010

Fast syntactic searching in very large corpora for many languages

JAKUBÍČEK, Miloš, Pavel RYCHLÝ, Adam KILGARRIFF a Diana MCCARTHY

Základní údaje

Originální název

Fast syntactic searching in very large corpora for many languages

Název česky

Rychlé syntaktické vyhledávání ve velkých korpusech pro mnoho jazyků

Autoři

JAKUBÍČEK, Miloš (203 Česká republika, garant), Pavel RYCHLÝ (203 Česká republika), Adam KILGARRIFF (826 Velká Británie a Severní Irsko) a Diana MCCARTHY (826 Velká Británie a Severní Irsko)

Vydání

Tokyo, PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation, od s. 741-747, 7 s. 2010

Nakladatel

Waseda University

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Japonsko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/10:00045408

Organizační jednotka

Fakulta informatiky

ISBN

978-4-905166-00-9

Klíčová slova česky

vyhledávání v korpusu; velké korpusy; CQL; syntaktické vyhledávání

Klíčová slova anglicky

corpus search; large corpora; CQL; syntactic search

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 18. 11. 2010 09:39, RNDr. Miloš Jakubíček, Ph.D.

Anotace

V originále

For many linguistic investigations, the first step is to find examples. In the 21st century, they should all be found, not invented. Thus linguists need flexible tools for finding even quite rare phenomena. To support linguists well, they need to be fast even where corpora are very large and queries are complex. We present extensions to the CQL ("Corpus Query Language") for intuitive creation of syntactically rich queries, and demonstrate that they can be computed quickly within our tool even on multi-billion word corpora.

Česky

Prvním krokem pro mnoho lingvistických výzkumů je vyhledání příkladů. V 21. století by tyto příklady měly být vždy vyhledávány, nikoli vymýšleny. Proto potřebují lingvisté flexibilní nástroje pro vyhledávání i okrajových jazykových jevů. Takové vyhledávání musí být navíc rychlé i pro velké korpusy a složité dotazy. Představujeme rozšíření ke korpusovému dotazovacímu jazyku CQL pro intuitivní vytváření syntaktických dotazů a ukážeme, že tyto dotazy mohou být rychle vyhodnocovány našimi nástroji i pro korpusy o velikostech v řádech miliard pozic.

Návaznosti

GAP401/10/0792, projekt VaV
Název: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
GA407/07/0679, projekt VaV
Název: Právní e-slovník - PES
Investor: Grantová agentura ČR, Právní e-slovník - PES
LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
248307, interní kód MU
Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce