OSOLSOBĚ, Klára. Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování) (Corpus as Source of Amendements for Automatic Morphological Analysis). In Korpusová lingvistika Praha, 17.-19. září 2014. 2014.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování)
Name (in English) Corpus as Source of Amendements for Automatic Morphological Analysis
Authors OSOLSOBĚ, Klára (203 Czech Republic, guarantor, belonging to the institution).
Edition Korpusová lingvistika Praha, 17.-19. září 2014, 2014.
Other information
Original language Czech
Type of outcome Presentations at conferences
Field of Study 60203 Linguistics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
RIV identification code RIV/00216224:14210/14:00076627
Organization unit Faculty of Arts
Keywords (in Czech) verbální adjektivum; morfologické značkování; automatická morfologická analýza; varianta; slovotvorba
Keywords in English gerund; pos tagging; automatic morphological analysis; variant; derivational morphology
Tags International impact, Reviewed
Changed by Changed by: doc. PhDr. Klára Osolsobě, Dr., učo 1996. Changed: 19/2/2018 10:03.
Abstract
Cílem našeho příspěvku je naznačit, jak 20 let užívání nástrojů automatické morfologické analýzy k morfologickému značkování českých korpusů přispívá k poznání fungování pravidelných paradigmatických derivací v jazyce. Soustředíme se na jeden z případů pravidelných derivací (adjektiva na -oucí/-ící), které jsou na úrovni slovníků automatických analyzátorů zachyceny analogicky jako pravidelně tvořené gramatické tvary . Ukážeme, že značkování adjektiv pravidelně tvořených a na rovině slovníku automatického morfologického analyzátoru automaticky generovaných (s oporou ve slovesném tvaru 3. os. pl./ přechodníku přítomného) není na rovině morfologického slovníku užitého pro morfologické značkování (taging) českých korpusů řady SYN uspokojivě vyřešeno. Na základě pozorování korpusových dat ukážeme, že hlavním důvodem nekonzistencí je existence tvarových variant/dublet opěrných tvarů. Tvarové varianty/dublety jsou příčinou vzniku slovotvorných dublet. Jak tvarové, tak slovotvorné varianty/dublety nejsou uspokojivě zaznamenány pravidly pro generování tvarů příslušných sloves a od nich derivovaných adjektiv. Předpokladem konzistentního značkování je detailní průzkum všech možných variant. Ten je možno v současnosti opřít o velké korpusy. Implementace pravidel pro tvoření slovotvorných variant opřená o objektivní jazyková data může pomoci při optimalizaci nástrojů užívaných k automatické morfologické analýze češtiny.
Abstract (in English)
Our goal is to present a corpus driven study of Czech gerund (verbal adjectives on -oucí/-ící). The link between inflective and word formation variants will be demonstrated on the material from corpus SYN (2,6 milliard tokens of written Czech) and large web corpus czTenTen12 (5,2 milliard tokens of Czech text from internet – cleaned and deduplicated). The adjectives on -oucí/-ící are regularly derived from verbs hence are not usually registered in Czech monolingual dictionaries. On the level of automatic morphological analysis of Czech they should be generated from verbal roots and tagged as verbal adjectives (pos tag). The data from Czech corpora prove a) the inconsistencies and b) the gaps in tagging. The main cause of both is the existence of variants on the level of verbal forms the verbal adjectives are potentially derived from. Consequently text corpora are a significant source of knowledge of the formation and usage of adjectives on -oucí/-ící, which can be a thing of importance for both a) an automatic morphological analysis of Czech and b) a theoretical description of Czech grammar (derivational morphology).
Links
MUNI/A/0792/2013, interní kód MUName: Čeština v jednotě synchronie a diachronie - 2014
Investor: Masaryk University, Category A
PrintDisplayed: 3/5/2024 04:55