Korpusové zpracování korespondenčních textů : morfologické
značkování

C 2013

Korpusové zpracování korespondenčních textů : morfologické značkování

HLAVÁČKOVÁ, Dana

Základní údaje

Originální název

Korpusové zpracování korespondenčních textů : morfologické značkování

Název anglicky

Corpus processing of corresponding texts : problems of morphological tagging

Autoři

HLAVÁČKOVÁ, Dana

Vydání

Vyd. 1. Brno, Soukromá korespondence jako lingvistický pramen, od s. 19-31, 13 s. 2013

Nakladatel

Masarykova univerzita

Další údaje

Jazyk

čeština

Typ výsledku

Kapitola resp. kapitoly v odborné knize

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14210/13:00066038

Organizační jednotka

Filozofická fakulta

ISBN

978-80-210-6140-8

Klíčová slova česky

soukromá korespondence; korpus; lemmatizace; morfologické značkování; desambiguace

Klíčová slova anglicky

private correspondence; corpus; lemmatization; morphological tagging; disambiguation

Štítky

rivok

Příznaky

Recenzováno

Změněno: 23. 4. 2014 13:35, Mgr. Vendula Hromádková

Anotace

ORIG EN

V originále

Článek shrnuje zkušenosti s korpusovým zpracováním korespondenčních textů. Pozornost je věnována především lemmatizaci, morfologickému značkování a desambiguaci textů s vysokou frekvencí substandardních jazykových jevů. Při analýze jazyka soukromé korespondence byly také využity zkušenosti získané při morfologickém značkování Brněnského mluveného korpusu. Morfologický analyzátor ajka byl doplněn o nejfrekventovanější substandardní lemmata a slovní tvary, které se vyskytly ve zkoumaných korespondenčních textech. V článku jsou dále popsány nutné úpravy morfologického analyzátoru, podíl ruční anotace a získané výsledky.

Anglicky

This article summarizes the experience with the corpus processing of the corresponding texts. Attention is paid mainly lemmatization, morphological tagging and disambiguation of texts with a high frequency of substandard linguistic phenomena. In the language analysis of private correspondence were also used experience gained in morphological tagging of Brno spoken corpus. Morphological analyzer ajka has been supplemented by the most frequent substandard lemmas and word forms that occur in the examined corresponding texts. The procedure for necessary adjustments of morphological analyzer, the proportion of manual editing and the results obtained are specified.

Návaznosti

GAP406/10/0823, projekt VaV

Název: Soukromá korespondence 20. století. Rozšíření korpusových zdrojů, nové možnosti lingvistického využití

Investor: Grantová agentura ČR, Soukromá korespondence 20. století. Rozšíření korpusových zdrojů, nové možnosti lingvistického využití

Přehled o publikaci