2020
Typ Kladenští jako problém automatické morfologické analýzy
OSOLSOBĚ, Klára a Hana ŽIŽKOVÁZákladní údaje
Originální název
Typ Kladenští jako problém automatické morfologické analýzy
Název anglicky
Type Kladenští as the problem of automatic morphological analysis
Autoři
Vydání
Aranea 2020; 6.-7.11.2020, Bratislava, 2020
Další údaje
Jazyk
čeština
Typ výsledku
Prezentace na konferencích
Obor
60203 Linguistics
Stát vydavatele
Slovensko
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Organizační jednotka
Filozofická fakulta
Klíčová slova anglicky
proper names; Kladenští; lemmatisation; disambiguation; corpus linguistics; Aranea
Změněno: 22. 3. 2021 08:13, Mgr. Hana Žižková, Ph.D.
V originále
Cílem našeho příspěvku bude demonstrovat postupy, jejichž pomocí lze na základě korpusu, konkrétně webového korpusu Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G řady ARANEA, získat data potřebná ke zpřesnění nástrojů používaných pro automatickou morfologickou analýzu češtiny. Cílem sondy do webového korpusu Aranea tedy bude: - vytvoření seznamu frekventovaných proprií typu Kladenští; - jejich korpusově založený popis, který lze použít jako východisko pravidlové desambiguace. Domníváme, že taková sonda může přispět ke zlepšení výsledků automatického morfologického značkování.
Anglicky
The aim of our talk is to demonstrate the procedures by which the data needed to refine the tools used for automatic morphological analysis of Czech can be obtained on the basis of the corpus, specifically the web corpus Araneum Bohemicum IV Maximum (Czech, 20.03) 7.10 G of the ARANEA series. The goal of our probe into the Aranea web corpus is: - creation of a list of frequented proper names of the type Kladenští; - their corpus-based description, which can be used as a basis for regular disambiguation. We believe that such a probe can contribute to improving the results of automatic morphological analysis.
Návaznosti
MUNI/A/0913/2019, interní kód MU |
|