Extrakce korpusových příkladů pro valenční slovník

D 2011

Extrakce korpusových příkladů pro valenční slovník

BAISA, Vít

Základní údaje

Originální název

Extrakce korpusových příkladů pro valenční slovník

Název česky

Extrakce korpusových příkladů pro valenční slovník

Název anglicky

Extraction of Corpus Examples for Valency Lexicon

Autoři

BAISA, Vít

Vydání

1. vyd. Praha, Korpusová lingvistika, 3: Gramatika a značkování korpusů, od s. 110-120, 11 s. 2011

Nakladatel

Nakladatelství Lidové noviny

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/11:00053271

Organizační jednotka

Fakulta informatiky

ISBN

978-80-7422-116-3

Klíčová slova česky

valenční slovník; VerbaLex; korpus; valenční rámec; CQL

Klíčová slova anglicky

valency lexicon; VerbaLex; corpus; valency frame; CQL

Příznaky

Mezinárodní význam, Recenzováno

Změněno: 28. 11. 2016 07:20, Mgr. et Mgr. Vít Baisa, Ph.D.

Anotace

ORIG EN

V originále

Valenční slovník VerbaLex je vytvářen na základě několika různých zdrojů, mezi nimiž chybí reálná korpusová data. V současné době obsahuje VerbaLex asi 10 000 slovesných lemmat, 20 000 literálů (dvojice sloveso a jeho význam) a zhruba stejný počet valenčních rámců. Ve většině případů byly příklady pro jednotlivé valenční rámce vymyšleny. Naším cílem je doplnit tento bohatý lexikografický zdroj o reálné příklady z korpusu. Článek popisuje proceduru, při níž se valenční rámce VerbaLexu transformují na dotazy v jazyce CQL, které slouží pro hledání příkladů reálných vět pro daný valenční rámec. Tato procedura je jednoduchá, ale relativně účinná. V článku se podrobně věnujeme jednotlivým krokům procedury, výsledkům, jejich kvalitě a obtížím, na které jsme při vyhledávání realizací valenčních rámců v korpusu narazili.

Anglicky

Valency lexicon VerbaLex is built on the basis of various lexical sources. Unfortunately, real corpus data is missing among them. Currently, VerbaLex contains about 1O,OOO verb lemmata, 20,000 literals (lemmata with their sense-numbers) and roughly the same amount of valency frames. In most cases, examples for individual valency frames were made up artificially. Our goal is to add real examples from a corpus to this rich lexicographic source. The article summarizes a procedure which tranforms valency frames into CQL queries. These queries then serves for searching of real sentences corresponding with the transformed valency frames. The procedure is simple and relatively effective and is followed by necessary manual selection of acceptable examples. We describe in detail all steps of the procedure, results, their quality and obstacles we have faced during the extraction of examples of valency frames.

Návaznosti

LC536, projekt VaV

Název: Centrum komputační lingvistiky

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky

Přehled o publikaci