OSOLSOBĚ, Klára, Jaroslava HLAVÁČOVÁ, Vladimír PETKEVIČ, Josef ŠIMANDL and Martin SVÁŠEK. Nová automatická morfologická analýza češtiny (The New Authomatical Morphological Analysis of Czech). In Konference 100 let naší řeči, Praha, 9.-11. 1. 2017. 2017.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Nová automatická morfologická analýza češtiny
Name (in English) The New Authomatical Morphological Analysis of Czech
Authors OSOLSOBĚ, Klára, Jaroslava HLAVÁČOVÁ, Vladimír PETKEVIČ, Josef ŠIMANDL and Martin SVÁŠEK.
Edition Konference 100 let naší řeči, Praha, 9.-11. 1. 2017, 2017.
Other information
Original language Czech
Type of outcome Conference abstract
Field of Study 60203 Linguistics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
WWW URL
Organization unit Faculty of Arts
Keywords (in Czech) automatická morfologická analýza; lemmatizace; počítačové zpracování přirozeného jazyka; značkování
Keywords in English automatic morphological analysis; lemmatisation; natural language processing; part of speech tagging
Tags rivok
Tags International impact, Reviewed
Changed by Changed by: prof. Mgr. Pavel Kosek, Ph.D., učo 4755. Changed: 11/1/2020 17:38.
Abstract
Cílem našeho příspěvku je představit projekt inovace popisu české morfologie pro nástroje automatické morfologické analýzy. Více než dvacet let je automatická morfologická analýza součástí mnoha nástrojů počítačového zpracování přirozeného jazyka (NLP). Její výsledky užívá lingvistická veřejnost zejména pro práci s velkými jazykovými korpusy. Od roku 2012 běží grantový projekt, v jehož rámci se připravují inovace automatické morfologické analýzy češtiny. Ty jsou zaměřeny především na odstranění nedostatků, s nimiž se dosavadní praxe potýká, a zhodnocují zkušenosti, které bylo možné získat pouze na základě praxe.
Abstract (in English)
The detailed morphological description of word forms represents one of the necessary conditions of a successful automatic processing of linguistic data. More than twenty years of usage of the automatic morphological analysis tools for the Czech have proved the fundamental inadequacies. The aim of this paper is to present the project of new description of the Czech morphology for NLP. The decisive changes are as follows: 1) unambiguous description of variants; 2) concept of multiple lemma; 3) POS definitions revisited.
Links
MUNI/A/0915/2016, interní kód MUName: Čeština v jednotě synchronie a diachronie - 2017
Investor: Masaryk University, Category A
PrintDisplayed: 25/4/2024 03:02