2013
Korpusové zpracování korespondenčních textů : morfologické značkování
HLAVÁČKOVÁ, DanaZákladní údaje
Originální název
Korpusové zpracování korespondenčních textů : morfologické značkování
Název anglicky
Corpus processing of corresponding texts : problems of morphological tagging
Autoři
Vydání
Vyd. 1. Brno, Soukromá korespondence jako lingvistický pramen, od s. 19-31, 13 s. 2013
Nakladatel
Masarykova univerzita
Další údaje
Jazyk
čeština
Typ výsledku
Kapitola resp. kapitoly v odborné knize
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14210/13:00066038
Organizační jednotka
Filozofická fakulta
ISBN
978-80-210-6140-8
Klíčová slova česky
soukromá korespondence; korpus; lemmatizace; morfologické značkování; desambiguace
Klíčová slova anglicky
private correspondence; corpus; lemmatization; morphological tagging; disambiguation
Štítky
Příznaky
Recenzováno
Změněno: 23. 4. 2014 13:35, Mgr. Vendula Hromádková
V originále
Článek shrnuje zkušenosti s korpusovým zpracováním korespondenčních textů. Pozornost je věnována především lemmatizaci, morfologickému značkování a desambiguaci textů s vysokou frekvencí substandardních jazykových jevů. Při analýze jazyka soukromé korespondence byly také využity zkušenosti získané při morfologickém značkování Brněnského mluveného korpusu. Morfologický analyzátor ajka byl doplněn o nejfrekventovanější substandardní lemmata a slovní tvary, které se vyskytly ve zkoumaných korespondenčních textech. V článku jsou dále popsány nutné úpravy morfologického analyzátoru, podíl ruční anotace a získané výsledky.
Anglicky
This article summarizes the experience with the corpus processing of the corresponding texts. Attention is paid mainly lemmatization, morphological tagging and disambiguation of texts with a high frequency of substandard linguistic phenomena. In the language analysis of private correspondence were also used experience gained in morphological tagging of Brno spoken corpus. Morphological analyzer ajka has been supplemented by the most frequent substandard lemmas and word forms that occur in the examined corresponding texts. The procedure for necessary adjustments of morphological analyzer, the proportion of manual editing and the results obtained are specified.
Návaznosti
| GAP406/10/0823, projekt VaV |
|