Využití corpus driven metod při corpus based výzkumu

OSOLSOBĚ, Klára. Využití corpus driven metod při corpus based výzkumu (The Corpus-driven and Corpus-based Approach in Practice). Online. In Děngeová, Zuzana; Vališová, Pavlína. Proměna jazyka a jeho výzkumu v době nových médií a technologií. 1st ed. Praha: Ústav pro jazyk český AV ČR, 2015, p. 3-12. ISBN 978-80-86496-87-0.

Other formats: BibTeX LaTeX RIS

Basic information
Original name	Využití corpus driven metod při corpus based výzkumu
Name (in English)	The Corpus-driven and Corpus-based Approach in Practice
Authors	OSOLSOBĚ, Klára (203 Czech Republic, guarantor, belonging to the institution).
Edition	1. vyd. Praha, Proměna jazyka a jeho výzkumu v době nových médií a technologií, p. 3-12, 10 pp. 2015.
Publisher	Ústav pro jazyk český AV ČR

Other information
Original language	Czech
Type of outcome	Proceedings paper
Field of Study	60203 Linguistics
Country of publisher	Czech Republic
Confidentiality degree	is not subject to a state or trade secret
Publication form	electronic version available online
WWW	URL
RIV identification code	RIV/00216224:14210/15:00083001
Organization unit	Faculty of Arts
ISBN	978-80-86496-87-0
Keywords (in Czech)	korpus; corpus based; corpus driven; přegenerovávání; podgenerovávání; lemma; tag; slovotvorba
Keywords in English	corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation
Tags	International impact
Changed by	Changed by: doc. PhDr. Klára Osolsobě, Dr., učo 1996. Changed: 19/2/2018 10:00.

Abstract

Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat.

Abstract (in English)

Overgeneration is a property of formal rules which does not cover the exact language data it was designed for. It is equivalent to low precision and occurs when a formal rule (corpus query) is too widely defined. Undergeneration is equivalent to low recall and occurs when a formal rule (corpus query) is too narrowly specified. Both are caused by the ambiguity of natural language. In this article we shall demonstrate how to use corpus driven method in optimization of retrieval technique for corpus based analysis. On a specific example of retrieval of candidates for a word formation model (kutil) we shall show how to use observation of corpus data for progressive specification of corpus query.

Links
MUNI/A/1165/2014, interní kód MU	Name: Čeština v jednotě synchronie a diachronie - 2015
MUNI/A/1165/2014, interní kód MU	Investor: Masaryk University, Category A

PrintDisplayed: 10/6/2024 02:57

Využití corpus driven metod při corpus based výzkumu

Other applications