D 2006

Morfologické značkování korpusu soukromé korespondence

HLAVÁČKOVÁ, Dana a Radek SEDLÁČEK

Základní údaje

Originální název

Morfologické značkování korpusu soukromé korespondence

Název anglicky

The Morphological Tagging of the Corpus of Private Correspondence

Autoři

HLAVÁČKOVÁ, Dana a Radek SEDLÁČEK

Vydání

1. vyd. Bratislava, Varia XIV. od s. 371-379, 453 s. 2006

Nakladatel

Slovenská jazykovedná spoločnosť pri SAV

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Slovensko

Utajení

není předmětem státního či obchodního tajemství

Označené pro přenos do RIV

Ne

Organizační jednotka

Fakulta informatiky

ISBN

80-89037-04-6
Změněno: 19. 11. 2011 18:54, Mgr. Dana Hlaváčková, Ph.D.

Anotace

V originále

Na FF MU v Brně byl, v rámci grantového projektu, vytvořen jazykový korpus, který obsahuje 2000 klasických dopisů a 1000 e-mailů od 3000 různých pisatelů. Do konce roku 2005 by měl být korpus přístupný jednak na CD, jednak jako součást ČNK. V příspěvku se věnujeme automatickému morfologickému značkování korpusu a především úpravám stávajícího analyzátoru ajka (Sedláček – Smrž, 2001), který byl vytvořen na FI MU v Brně a je primárně určen pro analýzu spisovné češtiny. Morfologické značkování je prováděno prozatím pouze na části obsahující klasické dopisy, tj. na Korpusu soukromé korespondence (KSK) o velikosti přes 900 000 slovních výskytů. Zpracovávaný korpus kromě spisovných tvarů slov obsahuje také množství výrazů z oblasti obecné češtiny a různých dialektů s převahou středomoravského interdialektu. Analyzátor ajka je doplňován o variantní tvary především z důvodu snížení podílu ručního značkování.