Fast syntactic searching in very large corpora for many
languages

JAKUBÍČEK, Miloš, Pavel RYCHLÝ, Adam KILGARRIFF a Diana MCCARTHY. Fast syntactic searching in very large corpora for many languages. In PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation. Tokyo: Waseda University, 2010, s. 741-747. ISBN 978-4-905166-00-9.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Fast syntactic searching in very large corpora for many languages
Název česky	Rychlé syntaktické vyhledávání ve velkých korpusech pro mnoho jazyků
Autoři	JAKUBÍČEK, Miloš (203 Česká republika, garant), Pavel RYCHLÝ (203 Česká republika), Adam KILGARRIFF (826 Velká Británie a Severní Irsko) a Diana MCCARTHY (826 Velká Británie a Severní Irsko).
Vydání	Tokyo, PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation, od s. 741-747, 7 s. 2010.
Nakladatel	Waseda University

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Japonsko
Utajení	není předmětem státního či obchodního tajemství
Kód RIV	RIV/00216224:14330/10:00045408
Organizační jednotka	Fakulta informatiky
ISBN	978-4-905166-00-9
Klíčová slova česky	vyhledávání v korpusu; velké korpusy; CQL; syntaktické vyhledávání
Klíčová slova anglicky	corpus search; large corpora; CQL; syntactic search
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Změněno: 18. 11. 2010 09:39.

Anotace

For many linguistic investigations, the first step is to find examples. In the 21st century, they should all be found, not invented. Thus linguists need flexible tools for finding even quite rare phenomena. To support linguists well, they need to be fast even where corpora are very large and queries are complex. We present extensions to the CQL ("Corpus Query Language") for intuitive creation of syntactically rich queries, and demonstrate that they can be computed quickly within our tool even on multi-billion word corpora.

Anotace česky

Prvním krokem pro mnoho lingvistických výzkumů je vyhledání příkladů. V 21. století by tyto příklady měly být vždy vyhledávány, nikoli vymýšleny. Proto potřebují lingvisté flexibilní nástroje pro vyhledávání i okrajových jazykových jevů. Takové vyhledávání musí být navíc rychlé i pro velké korpusy a složité dotazy. Představujeme rozšíření ke korpusovému dotazovacímu jazyku CQL pro intuitivní vytváření syntaktických dotazů a ukážeme, že tyto dotazy mohou být rychle vyhodnocovány našimi nástroji i pro korpusy o velikostech v řádech miliard pozic.

Návaznosti
GAP401/10/0792, projekt VaV	Název: Temporální aspekty znalostí a informací
GAP401/10/0792, projekt VaV	Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
GA407/07/0679, projekt VaV	Název: Právní e-slovník - PES
GA407/07/0679, projekt VaV	Investor: Grantová agentura ČR, Právní e-slovník - PES
LC536, projekt VaV	Název: Centrum komputační lingvistiky
LC536, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV	Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
2C06009, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
248307, interní kód MU	Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
248307, interní kód MU	Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce

VytisknoutZobrazeno: 6. 10. 2024 08:53

Fast syntactic searching in very large corpora for many languages

Další aplikace