k 2020

Typ Kladenští jako problém automatické morfologické analýzy

OSOLSOBĚ, Klára and Hana ŽIŽKOVÁ

Basic information

Original name

Typ Kladenští jako problém automatické morfologické analýzy

Name (in English)

Type Kladenští as the problem of automatic morphological analysis

Edition

Aranea 2020; 6.-7.11.2020, Bratislava, 2020

Other information

Language

Czech

Type of outcome

Prezentace na konferencích

Field of Study

60203 Linguistics

Country of publisher

Slovakia

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

Organization unit

Faculty of Arts

Keywords in English

proper names; Kladenští; lemmatisation; disambiguation; corpus linguistics; Aranea
Změněno: 22/3/2021 08:13, Mgr. Hana Žižková, Ph.D.

Abstract

V originále

Cílem našeho příspěvku bude demonstrovat postupy, jejichž pomocí lze na základě korpusu, konkrétně webového korpusu Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G řady ARANEA, získat data potřebná ke zpřesnění nástrojů používaných pro automatickou morfologickou analýzu češtiny. Cílem sondy do webového korpusu Aranea tedy bude: - vytvoření seznamu frekventovaných proprií typu Kladenští; - jejich korpusově založený popis, který lze použít jako východisko pravidlové desambiguace. Domníváme, že taková sonda může přispět ke zlepšení výsledků automatického morfologického značkování.

In English

The aim of our talk is to demonstrate the procedures by which the data needed to refine the tools used for automatic morphological analysis of Czech can be obtained on the basis of the corpus, specifically the web corpus Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G of the ARANEA series. The goal of our probe into the Aranea web corpus is: - creation of a list of frequented proper names of the type Kladenští; - their corpus-based description, which can be used as a basis for regular disambiguation. We believe that such a probe can contribute to improving the results of automatic morphological analysis.

Links

MUNI/A/0913/2019, interní kód MU
Name: Čeština v jednotě synchronie a diachronie - 2020
Investor: Masaryk University, Category A