J 2020

Homonymie mezi apelativy a proprii jako problém automatické morfologické analýzy češtiny

OSOLSOBĚ, Klára and Hana ŽIŽKOVÁ

Basic information

Original name

Homonymie mezi apelativy a proprii jako problém automatické morfologické analýzy češtiny

Name (in English)

Homonymy among Czech common and proper nouns as the problem of automatic morphological analysis

Authors

OSOLSOBĚ, Klára (203 Czech Republic, guarantor, belonging to the institution) and Hana ŽIŽKOVÁ (203 Czech Republic, belonging to the institution)

Edition

Acta onomastica, AV ČR, Ústav pro jazyk český, 2020, 1211-4413

Other information

Language

Czech

Type of outcome

Článek v odborném periodiku

Field of Study

60203 Linguistics

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

RIV identification code

RIV/00216224:14210/20:00115564

Organization unit

Faculty of Arts

Keywords in English

tokenisation; lemmatisation; disambiguation; corpus linguistics

Tags

Reviewed
Změněno: 18/10/2022 12:43, doc. PhDr. Klára Osolsobě, Dr.

Abstract

V originále

Cílem této práce je korpusová analýza jednoho typu českých podstatných jmen (typ Zubří). Adekvátní anotace (lemmatizace a morfologické značkování) vlastních podstatných jmen typu Zubří závisí na několika okolnostech: 1) pokrytí slovníku automatického analyzátoru; 2) přesný popis variability forem flexe; 3) netriviální desambiguace četných homonymních slovních forem. Věříme, že i když je splnění prvních dvou podmínek možné, adekvátní desambiguace jde nad možnosti automatické morfologické analýzy.

In English

The aim of this paper is a corpus-based analysis of one type of Czech proper nouns (type Zubří). We will argue that adequate annotation (lemmatisation and morphological tagging) of proper nouns type Zubří depends on several circumstances: 1) coverage of the dictionary of the automatic analyzer; 2) accurate description of the variability of inflexion forms; 3) not trivial disambiguation of numerous homonym word-forms. We believe that while satisfying the first two conditions is possible, adequate disambiguation goes beyond the possibilities of automatic morphological analysis.

Links

MUNI/A/0913/2019, interní kód MU
Name: Čeština v jednotě synchronie a diachronie - 2020
Investor: Masaryk University, Category A