D 2015

Využití corpus driven metod při corpus based výzkumu

OSOLSOBĚ, Klára

Základní údaje

Originální název

Využití corpus driven metod při corpus based výzkumu

Název anglicky

The Corpus-driven and Corpus-based Approach in Practice

Autoři

OSOLSOBĚ, Klára (203 Česká republika, garant, domácí)

Vydání

1. vyd. Praha, Proměna jazyka a jeho výzkumu v době nových médií a technologií, od s. 3-12, 10 s. 2015

Nakladatel

Ústav pro jazyk český AV ČR

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

60203 Linguistics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14210/15:00083001

Organizační jednotka

Filozofická fakulta

ISBN

978-80-86496-87-0

Klíčová slova česky

korpus; corpus based; corpus driven; přegenerovávání; podgenerovávání; lemma; tag; slovotvorba

Klíčová slova anglicky

corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation

Příznaky

Mezinárodní význam
Změněno: 19. 2. 2018 10:00, doc. PhDr. Klára Osolsobě, Dr.

Anotace

V originále

Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat.

Anglicky

Overgeneration is a property of formal rules which does not cover the exact language data it was designed for. It is equivalent to low precision and occurs when a formal rule (corpus query) is too widely defined. Undergeneration is equivalent to low recall and occurs when a formal rule (corpus query) is too narrowly specified. Both are caused by the ambiguity of natural language. In this article we shall demonstrate how to use corpus driven method in optimization of retrieval technique for corpus based analysis. On a specific example of retrieval of candidates for a word formation model (kutil) we shall show how to use observation of corpus data for progressive specification of corpus query.

Návaznosti

MUNI/A/1165/2014, interní kód MU
Název: Čeština v jednotě synchronie a diachronie - 2015
Investor: Masarykova univerzita, Čeština v jednotě synchronie a diachronie - 2015, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty