JAKUBÍČEK, Miloš, Pavel RYCHLÝ, Adam KILGARRIFF a Diana MCCARTHY. Fast syntactic searching in very large corpora for many languages. In PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation. Tokyo: Waseda University, 2010, s. 741-747. ISBN 978-4-905166-00-9.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Fast syntactic searching in very large corpora for many languages
Název česky Rychlé syntaktické vyhledávání ve velkých korpusech pro mnoho jazyků
Autoři JAKUBÍČEK, Miloš (203 Česká republika, garant), Pavel RYCHLÝ (203 Česká republika), Adam KILGARRIFF (826 Velká Británie a Severní Irsko) a Diana MCCARTHY (826 Velká Británie a Severní Irsko).
Vydání Tokyo, PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation, od s. 741-747, 7 s. 2010.
Nakladatel Waseda University
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Japonsko
Utajení není předmětem státního či obchodního tajemství
Kód RIV RIV/00216224:14330/10:00045408
Organizační jednotka Fakulta informatiky
ISBN 978-4-905166-00-9
Klíčová slova česky vyhledávání v korpusu; velké korpusy; CQL; syntaktické vyhledávání
Klíčová slova anglicky corpus search; large corpora; CQL; syntactic search
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Změněno: 18. 11. 2010 09:39.
Anotace
For many linguistic investigations, the first step is to find examples. In the 21st century, they should all be found, not invented. Thus linguists need flexible tools for finding even quite rare phenomena. To support linguists well, they need to be fast even where corpora are very large and queries are complex. We present extensions to the CQL ("Corpus Query Language") for intuitive creation of syntactically rich queries, and demonstrate that they can be computed quickly within our tool even on multi-billion word corpora.
Anotace česky
Prvním krokem pro mnoho lingvistických výzkumů je vyhledání příkladů. V 21. století by tyto příklady měly být vždy vyhledávány, nikoli vymýšleny. Proto potřebují lingvisté flexibilní nástroje pro vyhledávání i okrajových jazykových jevů. Takové vyhledávání musí být navíc rychlé i pro velké korpusy a složité dotazy. Představujeme rozšíření ke korpusovému dotazovacímu jazyku CQL pro intuitivní vytváření syntaktických dotazů a ukážeme, že tyto dotazy mohou být rychle vyhodnocovány našimi nástroji i pro korpusy o velikostech v řádech miliard pozic.
Návaznosti
GAP401/10/0792, projekt VaVNázev: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
GA407/07/0679, projekt VaVNázev: Právní e-slovník - PES
Investor: Grantová agentura ČR, Právní e-slovník - PES
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
248307, interní kód MUNázev: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce
VytisknoutZobrazeno: 6. 10. 2024 08:53