J 2022

Typ kladenští jako problém automatické morfologické analýzy

OSOLSOBĚ, Klára a Hana ŽIŽKOVÁ

Základní údaje

Originální název

Typ kladenští jako problém automatické morfologické analýzy

Název česky

Typ kladenští jako problém automatické morfologické analýzy

Název anglicky

Kladenští type as a problem of automatic morphological analysis

Autoři

OSOLSOBĚ, Klára (203 Česká republika, garant, domácí) a Hana ŽIŽKOVÁ (203 Česká republika, domácí)

Vydání

Jazykovedný časopis, SAP – Slovak Academic Press, s. r. o. 2022, 0021-5597

Další údaje

Jazyk

čeština

Typ výsledku

Článek v odborném periodiku

Obor

60203 Linguistics

Stát vydavatele

Slovensko

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14210/22:00126316

Organizační jednotka

Filozofická fakulta

Klíčová slova česky

automatická morfologická analýza; derivační typ Kladenští; slovnědruhový přechod

Klíčová slova anglicky

automatic morphological analysis; derivational type Kladenští; part of speech transition

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 3. 4. 2023 15:36, Mgr. et Mgr. Lucie Racyn

Anotace

V originále

Cílem našeho příspěvku je demonstrovat postupy, kterými lze získat data potřebná ke zpřesnění nástrojů automatické morfologické analýzy češtiny pomocí korpusu, konkrétně webového korpusu Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G řady ARANEA (dále Araneum). Konkrétně se zaměříme na propria typu Kladenští, tedy substantivizovaná adjektiva označující skupiny osob podle příslušnosti. Cílem sondy do webového korpusu Aranea je: 1) korpusový popis frekventovaných vlastností typu Kladenští, z něhož lze vycházet při formulaci pravidel pro desambiguaci; 2) vytvoření seznamu nejčastějších lemmat typu Kladenští, která lze následně zařadit do slovníků automatických morfologických analyzátorů (např. slovník MorfFlex Hajiče a Hlaváčové). Věříme, že sonda může pomoci zlepšit výsledky nástrojů automatické morfologické analýzy češtiny.

Anglicky

The aim of our paper is to demonstrate the procedures by which the data needed to refine tools for automatic morphological analysis of Czech can be obtained using a corpus, namely the Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G (hereinafter Araneum). Particularly, we will focus on propria of the Kladenští type, i.e., substantivized adjectives of denoting groups of persons according to affiliation. The goal of the probe into the Aranea web corpus is: 1) a corpus-based description of frequented properties of the Kladenští type, which can be used as a starting point for rule disambiguation; 2) creating a list of the most frequent lemmas belonging to the Kladenští type, which can then be included into dictionaries of automatic morphological analyzers (e.g. the MorfFlex dictionary by Hajič and Hlaváčová). We believe that the probe can help improve the results of tools for automatic morphological analysis of Czech.

Návaznosti

MUNI/A/1137/2021, interní kód MU
Název: Lexikon a gramatika češtiny II - 2022
Investor: Masarykova univerzita, Lexikon a gramatika češtiny II - 2022