HLAVÁČKOVÁ, Dana a Radek SEDLÁČEK. Morfologické značkování korpusu soukromé korespondence. In Varia XIV. 1. vyd. Bratislava: Slovenská jazykovedná spoločnosť pri SAV, 2006, s. 371-379, 453 s. ISBN 80-89037-04-6.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Morfologické značkování korpusu soukromé korespondence
Název anglicky The Morphological Tagging of the Corpus of Private Correspondence
Autoři HLAVÁČKOVÁ, Dana a Radek SEDLÁČEK.
Vydání 1. vyd. Bratislava, Varia XIV. od s. 371-379, 453 s. 2006.
Nakladatel Slovenská jazykovedná spoločnosť pri SAV
Další údaje
Originální jazyk čeština
Typ výsledku Stať ve sborníku
Obor 60200 6.2 Languages and Literature
Stát vydavatele Slovensko
Utajení není předmětem státního či obchodního tajemství
Organizační jednotka Fakulta informatiky
ISBN 80-89037-04-6
Změnil Změnila: Mgr. Dana Hlaváčková, Ph.D., učo 17907. Změněno: 19. 11. 2011 18:54.
Anotace
Na FF MU v Brně byl, v rámci grantového projektu, vytvořen jazykový korpus, který obsahuje 2000 klasických dopisů a 1000 e-mailů od 3000 různých pisatelů. Do konce roku 2005 by měl být korpus přístupný jednak na CD, jednak jako součást ČNK. V příspěvku se věnujeme automatickému morfologickému značkování korpusu a především úpravám stávajícího analyzátoru ajka (Sedláček – Smrž, 2001), který byl vytvořen na FI MU v Brně a je primárně určen pro analýzu spisovné češtiny. Morfologické značkování je prováděno prozatím pouze na části obsahující klasické dopisy, tj. na Korpusu soukromé korespondence (KSK) o velikosti přes 900 000 slovních výskytů. Zpracovávaný korpus kromě spisovných tvarů slov obsahuje také množství výrazů z oblasti obecné češtiny a různých dialektů s převahou středomoravského interdialektu. Analyzátor ajka je doplňován o variantní tvary především z důvodu snížení podílu ručního značkování.
VytisknoutZobrazeno: 26. 4. 2024 17:57