OSOLSOBĚ, Klára and Hana ŽIŽKOVÁ. Typ kladenští jako problém automatické morfologické analýzy (Kladenští type as a problem of automatic morphological analysis). Jazykovedný časopis. SAP – Slovak Academic Press, s. r. o., 2022, vol. 72, No 4, p. 862-872. ISSN 0021-5597. Available from: https://dx.doi.org/10.2478/jazcas-2022-0011.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Typ kladenští jako problém automatické morfologické analýzy
Name in Czech Typ kladenští jako problém automatické morfologické analýzy
Name (in English) Kladenští type as a problem of automatic morphological analysis
Authors OSOLSOBĚ, Klára (203 Czech Republic, guarantor, belonging to the institution) and Hana ŽIŽKOVÁ (203 Czech Republic, belonging to the institution).
Edition Jazykovedný časopis, SAP – Slovak Academic Press, s. r. o. 2022, 0021-5597.
Other information
Original language Czech
Type of outcome Article in a journal
Field of Study 60203 Linguistics
Country of publisher Slovakia
Confidentiality degree is not subject to a state or trade secret
WWW URL
RIV identification code RIV/00216224:14210/22:00126316
Organization unit Faculty of Arts
Doi http://dx.doi.org/10.2478/jazcas-2022-0011
Keywords (in Czech) automatická morfologická analýza; derivační typ Kladenští; slovnědruhový přechod
Keywords in English automatic morphological analysis; derivational type Kladenští; part of speech transition
Tags rivok
Tags International impact, Reviewed
Changed by Changed by: Mgr. et Mgr. Lucie Racyn, učo 445546. Changed: 3/4/2023 15:36.
Abstract
Cílem našeho příspěvku je demonstrovat postupy, kterými lze získat data potřebná ke zpřesnění nástrojů automatické morfologické analýzy češtiny pomocí korpusu, konkrétně webového korpusu Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G řady ARANEA (dále Araneum). Konkrétně se zaměříme na propria typu Kladenští, tedy substantivizovaná adjektiva označující skupiny osob podle příslušnosti. Cílem sondy do webového korpusu Aranea je: 1) korpusový popis frekventovaných vlastností typu Kladenští, z něhož lze vycházet při formulaci pravidel pro desambiguaci; 2) vytvoření seznamu nejčastějších lemmat typu Kladenští, která lze následně zařadit do slovníků automatických morfologických analyzátorů (např. slovník MorfFlex Hajiče a Hlaváčové). Věříme, že sonda může pomoci zlepšit výsledky nástrojů automatické morfologické analýzy češtiny.
Abstract (in English)
The aim of our paper is to demonstrate the procedures by which the data needed to refine tools for automatic morphological analysis of Czech can be obtained using a corpus, namely the Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G (hereinafter Araneum). Particularly, we will focus on propria of the Kladenští type, i.e., substantivized adjectives of denoting groups of persons according to affiliation. The goal of the probe into the Aranea web corpus is: 1) a corpus-based description of frequented properties of the Kladenští type, which can be used as a starting point for rule disambiguation; 2) creating a list of the most frequent lemmas belonging to the Kladenští type, which can then be included into dictionaries of automatic morphological analyzers (e.g. the MorfFlex dictionary by Hajič and Hlaváčová). We believe that the probe can help improve the results of tools for automatic morphological analysis of Czech.
Links
MUNI/A/1137/2021, interní kód MUName: Lexikon a gramatika češtiny II - 2022
Investor: Masaryk University
PrintDisplayed: 8/9/2024 01:25