J 2017

Nová automatická morfologická analýza češtiny

OSOLSOBĚ, Klára; Jaroslava HLAVÁČOVÁ; Vladimír PETKEVIČ; Josef ŠIMANDL; Martin SVÁŠEK et al.

Základní údaje

Originální název

Nová automatická morfologická analýza češtiny

Název anglicky

The New Automatic Morphological Analysis of Czech

Autoři

OSOLSOBĚ, Klára; Jaroslava HLAVÁČOVÁ; Vladimír PETKEVIČ; Josef ŠIMANDL a Martin SVÁŠEK

Vydání

Naše řeč, AV ČR, Ústav pro jazyk český, 2017, 0027-8203

Další údaje

Jazyk

čeština

Typ výsledku

Článek v odborném periodiku

Obor

60203 Linguistics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14210/17:00098202

Organizační jednotka

Filozofická fakulta

Klíčová slova česky

automatická morfologická analýza; lemmatizace; počítačové zpracování přirozeného jazyka; slovnědruhové značkování; tagset

Klíčová slova anglicky

automatic morphological analysis; lemmatisation; natural language processing; part-of-speech tagging; tagset

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 22. 3. 2018 10:16, Mgr. Marie Skřivanová

Anotace

V originále

Cílem příspěvku je představit projekt inovace popisu české morfologie pro nástroje automatické morfologické analýzy, zejména změny v pojetí tagsetu. Více než dvacet let je automatická morfologická analýza součástí mnoha nástrojů počítačového zpracování přirozeného jazyka (natural language processing, NLP). Její výsledky užívá lingvistická veřejnost zejména při práci s velkými jazykovými korpusy. Od roku 2012 běží grantový projekt, v jehož rámci se připravují inovace automatické morfologické analýzy češtiny. Ty jsou zaměřeny především na odstranění nedostatků, s nimiž se dosavadní praxe potýká, a zhodnocují zkušenosti, které bylo možné získat pouze na základě praxe.

Anglicky

A detailed morphological description of word forms in any language represents one of the necessary conditions of a successful automatic processing of linguistic data. The aim of this paper is to present the project of a new description of Czech morphology, especially planned changes in the tagset. The key changes are as follows: 1) unambiguous description of variants; 2) concept of a multiple lemma; 3) revision of part-of-speech definitions.

Návaznosti

MUNI/A/0915/2016, interní kód MU
Název: Čeština v jednotě synchronie a diachronie - 2017
Investor: Masarykova univerzita, Čeština v jednotě synchronie a diachronie - 2017, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty