2017
Nová automatická morfologická analýza češtiny
OSOLSOBĚ, Klára; Jaroslava HLAVÁČOVÁ; Vladimír PETKEVIČ; Josef ŠIMANDL; Martin SVÁŠEK et al.Základní údaje
Originální název
Nová automatická morfologická analýza češtiny
Název anglicky
The New Automatic Morphological Analysis of Czech
Autoři
OSOLSOBĚ, Klára; Jaroslava HLAVÁČOVÁ; Vladimír PETKEVIČ; Josef ŠIMANDL a Martin SVÁŠEK
Vydání
Naše řeč, AV ČR, Ústav pro jazyk český, 2017, 0027-8203
Další údaje
Jazyk
čeština
Typ výsledku
Článek v odborném periodiku
Obor
60203 Linguistics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14210/17:00098202
Organizační jednotka
Filozofická fakulta
Klíčová slova česky
automatická morfologická analýza; lemmatizace; počítačové zpracování přirozeného jazyka; slovnědruhové značkování; tagset
Klíčová slova anglicky
automatic morphological analysis; lemmatisation; natural language processing; part-of-speech tagging; tagset
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 22. 3. 2018 10:16, Mgr. Marie Skřivanová
V originále
Cílem příspěvku je představit projekt inovace popisu české morfologie pro nástroje automatické morfologické analýzy, zejména změny v pojetí tagsetu. Více než dvacet let je automatická morfologická analýza součástí mnoha nástrojů počítačového zpracování přirozeného jazyka (natural language processing, NLP). Její výsledky užívá lingvistická veřejnost zejména při práci s velkými jazykovými korpusy. Od roku 2012 běží grantový projekt, v jehož rámci se připravují inovace automatické morfologické analýzy češtiny. Ty jsou zaměřeny především na odstranění nedostatků, s nimiž se dosavadní praxe potýká, a zhodnocují zkušenosti, které bylo možné získat pouze na základě praxe.
Anglicky
A detailed morphological description of word forms in any language represents one of the necessary conditions of a successful automatic processing of linguistic data. The aim of this paper is to present the project of a new description of Czech morphology, especially planned changes in the tagset. The key changes are as follows: 1) unambiguous description of variants; 2) concept of a multiple lemma; 3) revision of part-of-speech definitions.
Návaznosti
| MUNI/A/0915/2016, interní kód MU |
|