2006
Morfologické značkování korpusu soukromé korespondence
HLAVÁČKOVÁ, Dana a Radek SEDLÁČEKZákladní údaje
Originální název
Morfologické značkování korpusu soukromé korespondence
Název anglicky
The Morphological Tagging of the Corpus of Private Correspondence
Autoři
HLAVÁČKOVÁ, Dana a Radek SEDLÁČEK
Vydání
1. vyd. Bratislava, Varia XIV. od s. 371-379, 453 s. 2006
Nakladatel
Slovenská jazykovedná spoločnosť pri SAV
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Slovensko
Utajení
není předmětem státního či obchodního tajemství
Označené pro přenos do RIV
Ne
Organizační jednotka
Fakulta informatiky
ISBN
80-89037-04-6
Změněno: 19. 11. 2011 18:54, Mgr. Dana Hlaváčková, Ph.D.
Anotace
V originále
Na FF MU v Brně byl, v rámci grantového projektu, vytvořen jazykový korpus, který obsahuje 2000 klasických dopisů a 1000 e-mailů od 3000 různých pisatelů. Do konce roku 2005 by měl být korpus přístupný jednak na CD, jednak jako součást ČNK. V příspěvku se věnujeme automatickému morfologickému značkování korpusu a především úpravám stávajícího analyzátoru ajka (Sedláček – Smrž, 2001), který byl vytvořen na FI MU v Brně a je primárně určen pro analýzu spisovné češtiny. Morfologické značkování je prováděno prozatím pouze na části obsahující klasické dopisy, tj. na Korpusu soukromé korespondence (KSK) o velikosti přes 900 000 slovních výskytů. Zpracovávaný korpus kromě spisovných tvarů slov obsahuje také množství výrazů z oblasti obecné češtiny a různých dialektů s převahou středomoravského interdialektu. Analyzátor ajka je doplňován o variantní tvary především z důvodu snížení podílu ručního značkování.