Korpus jako zdroj dat pro opravy chyb automatické morfologické
analýzy

OSOLSOBĚ, Klára. Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy (Corpus as Source of Amendements for Automatic Morphological Analysis). In Grammar & Corpora, 2nd International Conference, Abstracts. 1st ed. Praha: Ústav pro jazyk český AV ČR, V. v. i., 2007, p. 59-61. ISBN 80-86496-35-X.

Other formats: BibTeX LaTeX RIS

Basic information
Original name	Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy
Name in Czech	Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy
Name (in English)	Corpus as Source of Amendements for Automatic Morphological Analysis
Authors	OSOLSOBĚ, Klára (203 Czech Republic, guarantor).
Edition	1. vyd. Praha, Grammar & Corpora, 2nd International Conference, Abstracts, p. 59-61, 3 pp. 2007.
Publisher	Ústav pro jazyk český AV ČR, V. v. i.

Other information
Original language	Czech
Type of outcome	Proceedings paper
Field of Study	60200 6.2 Languages and Literature
Country of publisher	Czech Republic
Confidentiality degree	is not subject to a state or trade secret
RIV identification code	RIV/00216224:14210/07:00020828
Organization unit	Faculty of Arts
ISBN	80-86496-35-X
Keywords in English	corpus; automatical morphological analysis; verb form; word class; gradation
Tags	automatical morphological analysis, corpus, gradation, verb form, word class
Tags	International impact, Reviewed
Changed by	Changed by: doc. PhDr. Klára Osolsobě, Dr., učo 1996. Changed: 26/2/2008 11:10.

Abstract

Cílem našeho příspěvku je ukázat, jak mohou korpusová data přispět k doplnění popisů gramatických jevů zachycených ve slovnících a gramatikách na straně jedné a v lingvistických bázích automatických morfologických analyzátorů na straně druhé. Ke značkování řádově stamilionových korpusů se běžně používají automatické nástroje. V prostředí českých korpusů jsou to především dva analyzátory (taggery) pro morfologické značkování. Morfologický analyzátor Jana Hajiče dále HA (Hajič, 1995, 2004, http://ucnk.ff.cuni.cz/bonito/index.html) a morfologický analyzátor Radka Sedláčka Ajka (Sedláček, 2005, http://nlp.fi.muni.cz/projekty/wwwajka). Lingvistickou bázi těchto analyzátorů byly mluvnice a slovníky, o něž se opíraly algoritmické popisy flexe (Hajič 1995, Osolsobě, 1996). Při aplikaci na jazykový materiál korpusů se ukázalo, že celá řada interpretací, které byly přiřazeny jednotkám na úrovni strojových slovníků, se plně nekryje s bohatstvím přirozeného jazyka, jak je prezentuje korpus. Vyšlo najevo, že s ohledem na zkušenosti z konkrétní praxe, je třeba některé interpretace zpětně verifikovat. V našem příspěvku si všimneme tří jevů: 1) syntetické futurum, 2) stupňování adjektiv a adverbií a 3) slovnědruhové přechody vybraných slov.

Abstract (in English)

The aim of this paper is to present how a corpus can be used as a device (source) to improve the description of chosen grammatical phenomena in dictionary and grammar on one hand and in morpholigical taggers on the other hand. Two automatic morphological taggers used for tagging of Czech language corpora (Hajič, 2004 and Sedláček, 2005) will be compared. We shall analyze how three phenomena: a) synthetic future in Czech, b) comparison of adjectiv and c) word class transposition of words like hodně, mnoho, moc, are annotated in CNK and how are they described in Czech dictionaries (Slovník spisovného jazyka českého and Slovník spisovné češtiny pro školu a veřejnost) and grammars (Mluvnice češtiny, 1986, Česká mluvnice, 1989, Příruční mluvnice češtiny, 1996, Čeština, řeč a jazyk, 1996). We shall discuss how the analysis of corpus mined data can be used for detecting of gaps in examined materials and how can it contribute to filling them in.

Links
GV405/96/K214, research and development project	Name: Čeština ve věku počítačů: Textové korpusy a lexikální i gramatická základna pro rozvoj češtiny v 21. století
GV405/96/K214, research and development project	Investor: Czech Science Foundation, Czech language in the era of computers. Text corpora and lexical and grammatical base for the development of Czech in the 21 st century

PrintDisplayed: 14/10/2024 04:44

Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy

Other applications