OSOLSOBĚ, Klára. Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování). Časopis pro moderní filologii. Praha: Univerzita Karlova v Praze, 2015, roč. 97, č. 2, s. 136-145. ISSN 0008-7386.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování)
Název anglicky Corpora As Data Sources For The Up-Grading Of Morphological Tagging
Autoři OSOLSOBĚ, Klára (203 Česká republika, garant, domácí).
Vydání Časopis pro moderní filologii, Praha, Univerzita Karlova v Praze, 2015, 0008-7386.
Další údaje
Originální jazyk čeština
Typ výsledku Článek v odborném periodiku
Obor 60203 Linguistics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14210/15:00083711
Organizační jednotka Filozofická fakulta
Klíčová slova česky verbální adjektivum; morfologické značkování; automatická morfologická analýza; varianta, slovotvorba
Klíčová slova anglicky gerund/deverbal adjective; pos tagging; automatic morphological analysis; variant; derivational morphology
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnila: doc. PhDr. Klára Osolsobě, Dr., učo 1996. Změněno: 19. 2. 2018 14:43.
Anotace
Cílem našeho příspěvku je naznačit, jak 20 let užívání nástrojů automatické morfologické analýzy k morfologickému značkování českých korpusů přispívá k poznání fungování pravidelných paradigmatických derivací v jazyce. Soustředíme se na jeden z případů pravidelných derivací (adjektiva na -oucí/-ící), které jsou na úrovni slovníků automatických analyzátorů zachyceny analogicky jako pravidelně tvořené gramatické tvary . Ukážeme, že značkování adjektiv pravidelně tvořených a na rovině slovníku automatického morfologického analyzátoru automaticky generovaných (s oporou ve slovesném tvaru 3. os. pl./ přechodníku přítomného) není na rovině morfologického slovníku užitého pro morfologické značkování (taging) českých korpusů řady SYN uspokojivě vyřešeno. Na základě pozorování korpusových dat ukážeme, že hlavním důvodem nekonzistencí je existence tvarových variant/dublet opěrných tvarů. Tvarové varianty/dublety jsou příčinou vzniku slovotvorných dublet. Jak tvarové, tak slovotvorné varianty/dublety nejsou uspokojivě zaznamenány pravidly pro generování tvarů příslušných sloves a od nich derivovaných adjektiv. Předpokladem konzistentního značkování je detailní průzkum všech možných variant. Ten je možno v současnosti opřít o velké korpusy. Implementace pravidel pro tvoření slovotvorných variant opřená o objektivní jazyková data může pomoci při optimalizaci nástrojů užívaných k automatické morfologické analýze češtiny.
Anotace anglicky
Adjectives ending with -oucí/-ící are regularly derived from verbs and hence are not usually listed in any of the Czech monolingual dictionaries. On the level of automatic morphological analysis (the dictionary) of Czech they should be generated from verbal roots and tagged as verbal adjectives (pos tag: AG.*). The data from Czech corpora prove a) inconsistencies in tagging and b) gaps in the dictionary. The main cause of both kinds of insufficiency is the existence of variants on the level of verbal forms from which the verbal adjectives are potentially derived. Consequently, text corpora are a significant source of knowledge about the formation and use of adjectives with endings -oucí/-ící that can be important for both a) automatic morphological analysis of Czech and b) theoretical description of Czech grammar (derivational morphology). Our goal is to present a corpus-based study of the Czech gerund, i.e. verbal adjectives with -oucí/-ící. The link between the inflected and the word-formation variants will be demonstrated using material from the SYN corpus (2,6 billion tokens of written Czech) and the large web corpus czTenTen12 (5,2 billion tokens of Czech text from the Internet — cleaned and deduplicated).
VytisknoutZobrazeno: 26. 4. 2024 18:19