k 2011

Korpusové zpracování korespondenčních textů: problematika morfologického značkování

HLAVÁČKOVÁ, Dana

Základní údaje

Originální název

Korpusové zpracování korespondenčních textů: problematika morfologického značkování

Název anglicky

Corpus processing of corresponding texts: problems of morphological tagging

Vydání

Korespondenční texty a jejich lingvistické využití, 2011

Další údaje

Jazyk

čeština

Typ výsledku

Prezentace na konferencích

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14210/11:00050589

Organizační jednotka

Filozofická fakulta

Klíčová slova česky

soukromá korespondence; korpus; lemmatizace; morfologické značkování; desambiguace

Klíčová slova anglicky

private correspondence; corpus; lemmatization; morphological tagging; disambiguation
Změněno: 16. 3. 2012 11:58, Mgr. Dana Hlaváčková, Ph.D.

Anotace

V originále

Příspěvek shrnuje zkušenosti s korpusovým zpracováním korespondenčních textů. Pozornost je věnována hlavně lemmatizaci, morfologickému značkování a desambiguaci textů se značnou frekvencí substandardních jazykových jevů. Je uveden postup nutných úprav morfologického analyzátoru, podíl ruční editace a získané výsledky.

Anglicky

This presentation summarizes the experience with the corpus processing of the corresponding texts. Attention is paid mainly lemmatization, morphological tagging and disambiguation of texts with a high frequency of substandard linguistic phenomena. The procedure for necessary adjustments of morphological analyzer, the proportion of manual editing and the results obtained are specified.

Návaznosti

GAP406/10/0823, projekt VaV
Název: Soukromá korespondence 20. století. Rozšíření korpusových zdrojů, nové možnosti lingvistického využití
Investor: Grantová agentura ČR, Soukromá korespondence 20. století. Rozšíření korpusových zdrojů, nové možnosti lingvistického využití