BAISA, Vít. Extrakce korpusových příkladů pro valenční slovník. In Vladimír Petkevič, Alexandr Rosen. Korpusová lingvistika, 3: Gramatika a značkování korpusů. 1. vyd. Praha: Nakladatelství Lidové noviny, 2011, s. 110-120. ISBN 978-80-7422-116-3.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Extrakce korpusových příkladů pro valenční slovník
Název česky Extrakce korpusových příkladů pro valenční slovník
Název anglicky Extraction of Corpus Examples for Valency Lexicon
Autoři BAISA, Vít (203 Česká republika, garant, domácí).
Vydání 1. vyd. Praha, Korpusová lingvistika, 3: Gramatika a značkování korpusů, od s. 110-120, 11 s. 2011.
Nakladatel Nakladatelství Lidové noviny
Další údaje
Originální jazyk čeština
Typ výsledku Stať ve sborníku
Obor 60200 6.2 Languages and Literature
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
Kód RIV RIV/00216224:14330/11:00053271
Organizační jednotka Fakulta informatiky
ISBN 978-80-7422-116-3
Klíčová slova česky valenční slovník; VerbaLex; korpus; valenční rámec; CQL
Klíčová slova anglicky valency lexicon; VerbaLex; corpus; valency frame; CQL
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: Mgr. et Mgr. Vít Baisa, Ph.D., učo 139654. Změněno: 28. 11. 2016 07:20.
Anotace
Valenční slovník VerbaLex je vytvářen na základě několika různých zdrojů, mezi nimiž chybí reálná korpusová data. V současné době obsahuje VerbaLex asi 10 000 slovesných lemmat, 20 000 literálů (dvojice sloveso a jeho význam) a zhruba stejný počet valenčních rámců. Ve většině případů byly příklady pro jednotlivé valenční rámce vymyšleny. Naším cílem je doplnit tento bohatý lexikografický zdroj o reálné příklady z korpusu. Článek popisuje proceduru, při níž se valenční rámce VerbaLexu transformují na dotazy v jazyce CQL, které slouží pro hledání příkladů reálných vět pro daný valenční rámec. Tato procedura je jednoduchá, ale relativně účinná. V článku se podrobně věnujeme jednotlivým krokům procedury, výsledkům, jejich kvalitě a obtížím, na které jsme při vyhledávání realizací valenčních rámců v korpusu narazili.
Anotace anglicky
Valency lexicon VerbaLex is built on the basis of various lexical sources. Unfortunately, real corpus data is missing among them. Currently, VerbaLex contains about 1O,OOO verb lemmata, 20,000 literals (lemmata with their sense-numbers) and roughly the same amount of valency frames. In most cases, examples for individual valency frames were made up artificially. Our goal is to add real examples from a corpus to this rich lexicographic source. The article summarizes a procedure which tranforms valency frames into CQL queries. These queries then serves for searching of real sentences corresponding with the transformed valency frames. The procedure is simple and relatively effective and is followed by necessary manual selection of acceptable examples. We describe in detail all steps of the procedure, results, their quality and obstacles we have faced during the extraction of examples of valency frames.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VytisknoutZobrazeno: 25. 4. 2024 09:21