J 2020

Homonymie mezi apelativy a proprii jako problém automatické morfologické analýzy češtiny

OSOLSOBĚ, Klára a Hana ŽIŽKOVÁ

Základní údaje

Originální název

Homonymie mezi apelativy a proprii jako problém automatické morfologické analýzy češtiny

Název anglicky

Homonymy among Czech common and proper nouns as the problem of automatic morphological analysis

Vydání

Acta onomastica, AV ČR, Ústav pro jazyk český, 2020, 1211-4413

Další údaje

Jazyk

čeština

Typ výsledku

Článek v odborném periodiku

Obor

60203 Linguistics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14210/20:00115564

Organizační jednotka

Filozofická fakulta

EID Scopus

Klíčová slova anglicky

tokenisation; lemmatisation; disambiguation; corpus linguistics

Příznaky

Recenzováno
Změněno: 18. 10. 2022 12:43, prof. PhDr. Klára Osolsobě, Dr.

Anotace

V originále

Cílem této práce je korpusová analýza jednoho typu českých podstatných jmen (typ Zubří). Adekvátní anotace (lemmatizace a morfologické značkování) vlastních podstatných jmen typu Zubří závisí na několika okolnostech: 1) pokrytí slovníku automatického analyzátoru; 2) přesný popis variability forem flexe; 3) netriviální desambiguace četných homonymních slovních forem. Věříme, že i když je splnění prvních dvou podmínek možné, adekvátní desambiguace jde nad možnosti automatické morfologické analýzy.

Anglicky

The aim of this paper is a corpus-based analysis of one type of Czech proper nouns (type Zubří). We will argue that adequate annotation (lemmatisation and morphological tagging) of proper nouns type Zubří depends on several circumstances: 1) coverage of the dictionary of the automatic analyzer; 2) accurate description of the variability of inflexion forms; 3) not trivial disambiguation of numerous homonym word-forms. We believe that while satisfying the first two conditions is possible, adequate disambiguation goes beyond the possibilities of automatic morphological analysis.

Návaznosti

MUNI/A/0913/2019, interní kód MU
Název: Čeština v jednotě synchronie a diachronie - 2020
Investor: Masarykova univerzita, Čeština v jednotě synchronie a diachronie - 2020, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty