2011
Extrakce korpusových příkladů pro valenční slovník
BAISA, VítZákladní údaje
Originální název
Extrakce korpusových příkladů pro valenční slovník
Název česky
Extrakce korpusových příkladů pro valenční slovník
Název anglicky
Extraction of Corpus Examples for Valency Lexicon
Autoři
Vydání
1. vyd. Praha, Korpusová lingvistika, 3: Gramatika a značkování korpusů, od s. 110-120, 11 s. 2011
Nakladatel
Nakladatelství Lidové noviny
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/11:00053271
Organizační jednotka
Fakulta informatiky
ISBN
978-80-7422-116-3
Klíčová slova česky
valenční slovník; VerbaLex; korpus; valenční rámec; CQL
Klíčová slova anglicky
valency lexicon; VerbaLex; corpus; valency frame; CQL
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 28. 11. 2016 07:20, Mgr. et Mgr. Vít Baisa, Ph.D.
V originále
Valenční slovník VerbaLex je vytvářen na základě několika různých zdrojů, mezi nimiž chybí reálná korpusová data. V současné době obsahuje VerbaLex asi 10 000 slovesných lemmat, 20 000 literálů (dvojice sloveso a jeho význam) a zhruba stejný počet valenčních rámců. Ve většině případů byly příklady pro jednotlivé valenční rámce vymyšleny. Naším cílem je doplnit tento bohatý lexikografický zdroj o reálné příklady z korpusu. Článek popisuje proceduru, při níž se valenční rámce VerbaLexu transformují na dotazy v jazyce CQL, které slouží pro hledání příkladů reálných vět pro daný valenční rámec. Tato procedura je jednoduchá, ale relativně účinná. V článku se podrobně věnujeme jednotlivým krokům procedury, výsledkům, jejich kvalitě a obtížím, na které jsme při vyhledávání realizací valenčních rámců v korpusu narazili.
Anglicky
Valency lexicon VerbaLex is built on the basis of various lexical sources. Unfortunately, real corpus data is missing among them. Currently, VerbaLex contains about 1O,OOO verb lemmata, 20,000 literals (lemmata with their sense-numbers) and roughly the same amount of valency frames. In most cases, examples for individual valency frames were made up artificially. Our goal is to add real examples from a corpus to this rich lexicographic source. The article summarizes a procedure which tranforms valency frames into CQL queries. These queries then serves for searching of real sentences corresponding with the transformed valency frames. The procedure is simple and relatively effective and is followed by necessary manual selection of acceptable examples. We describe in detail all steps of the procedure, results, their quality and obstacles we have faced during the extraction of examples of valency frames.
Návaznosti
| LC536, projekt VaV |
|