Fast syntactic searching in very large corpora for many languages
JAKUBÍČEK, Miloš, Pavel RYCHLÝ, Adam KILGARRIFF a Diana MCCARTHY. Fast syntactic searching in very large corpora for many languages. In PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation. Tokyo: Waseda University, 2010, s. 741-747. ISBN 978-4-905166-00-9. |
Další formáty:
BibTeX
LaTeX
RIS
|
Základní údaje | |
---|---|
Originální název | Fast syntactic searching in very large corpora for many languages |
Název česky | Rychlé syntaktické vyhledávání ve velkých korpusech pro mnoho jazyků |
Autoři | JAKUBÍČEK, Miloš (203 Česká republika, garant), Pavel RYCHLÝ (203 Česká republika), Adam KILGARRIFF (826 Velká Británie a Severní Irsko) a Diana MCCARTHY (826 Velká Británie a Severní Irsko). |
Vydání | Tokyo, PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation, od s. 741-747, 7 s. 2010. |
Nakladatel | Waseda University |
Další údaje | |
---|---|
Originální jazyk | angličtina |
Typ výsledku | Stať ve sborníku |
Obor | 10201 Computer sciences, information science, bioinformatics |
Stát vydavatele | Japonsko |
Utajení | není předmětem státního či obchodního tajemství |
Kód RIV | RIV/00216224:14330/10:00045408 |
Organizační jednotka | Fakulta informatiky |
ISBN | 978-4-905166-00-9 |
Klíčová slova česky | vyhledávání v korpusu; velké korpusy; CQL; syntaktické vyhledávání |
Klíčová slova anglicky | corpus search; large corpora; CQL; syntactic search |
Příznaky | Mezinárodní význam, Recenzováno |
Změnil | Změnil: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Změněno: 18. 11. 2010 09:39. |
Anotace |
---|
For many linguistic investigations, the first step is to find examples. In the 21st century, they should all be found, not invented. Thus linguists need flexible tools for finding even quite rare phenomena. To support linguists well, they need to be fast even where corpora are very large and queries are complex. We present extensions to the CQL ("Corpus Query Language") for intuitive creation of syntactically rich queries, and demonstrate that they can be computed quickly within our tool even on multi-billion word corpora. |
Anotace česky |
---|
Prvním krokem pro mnoho lingvistických výzkumů je vyhledání příkladů. V 21. století by tyto příklady měly být vždy vyhledávány, nikoli vymýšleny. Proto potřebují lingvisté flexibilní nástroje pro vyhledávání i okrajových jazykových jevů. Takové vyhledávání musí být navíc rychlé i pro velké korpusy a složité dotazy. Představujeme rozšíření ke korpusovému dotazovacímu jazyku CQL pro intuitivní vytváření syntaktických dotazů a ukážeme, že tyto dotazy mohou být rychle vyhodnocovány našimi nástroji i pro korpusy o velikostech v řádech miliard pozic. |
Návaznosti | |
---|---|
GAP401/10/0792, projekt VaV | Název: Temporální aspekty znalostí a informací |
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací | |
GA407/07/0679, projekt VaV | Název: Právní e-slovník - PES |
Investor: Grantová agentura ČR, Právní e-slovník - PES | |
LC536, projekt VaV | Název: Centrum komputační lingvistiky |
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky | |
2C06009, projekt VaV | Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing) |
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce | |
248307, interní kód MU | Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT) |
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce |
VytisknoutZobrazeno: 6. 10. 2024 08:53