Závěrečná práce: Bc. Ondřej Svoboda, učo 359558: Dopady změn trénovacích dat na přesnost značkování korpusu
Diplomová práce
Dopady změn trénovacích dat na přesnost značkování korpusu
Effects of training data modification on corpus tagging precision
Bc. Ondřej Svoboda, učo 359558
Anotace
Práce se věnuje ručním i automatickým úpravám českého desambiguovaného korpusu DESAM, vývoji měřicích nástrojů a jejich využití ve zkoumání vlivu změn anotace korpusu na úspěšnost automatického morfologického značkování prostřednictvím křížové validace.
Abstract
The thesis gives an account of both manual and automatic modifications of DESAM, a disambiguated corpus of written Czech. It describes the development and application of a set of tools to measure how changes to the corpus and its annotation affect the accuracy of POS tagging in cross-validation scenarios.
Klíčová slova
text corpus Czech DESAM attributive tagset POS tagging annotation accuracy RFTagger evaluation comparison automatic corpus modification manual cleanup tokenization korpus textu čeština attributivní tagset slovnědruhové značkování anotace přesnost vyhodnocení srovnání automatické úpravy korpusu ruční úpravy tokenizaceZadání práce
V morfologické anotaci českého korpusu DESAM student odhalí statisticky významné nedostatky a navrhne takové ruční i dávkové úpravy přidělených značek i tagsetu, které povedou ke zvýšení přesnosti značkování. Dopady změn změří s využitím programu RFTagger.
Práce zkontrolována:
31. 1. 2017 15:22, RNDr. Miloš Jakubíček, Ph.D., učo 172962
31. 1. 2017 15:22, RNDr. Miloš Jakubíček, Ph.D., učo 172962
Přílohy
results.zip
desam.zip
Jazyk práce
Termín obhajoby
3. 2. 2017
Práce byla úspěšně obhájena
Studijní program
Filologie
Práce na příbuzné téma
Seznam prací, které mají shodná klíčová slova.
-
Dopady změn trénovacích dat na přesnost značkování korpusu
Mgr. Ondřej Svoboda, učo 359558 -
Le mot UN en questions
Mgr. et Mgr. Kristína Koláčková, učo 342701 -
Le mot UN en questions
Mgr. et Mgr. Kristína Koláčková, učo 342701 -
Der Spruch in der deutschen und tschechischen Phraseologie
Bc. Martina Suchánková -
Konstrukce s příslovečným určením způsobu v ruštině a češtině.
Bc. Soňa Grobová -
Anglizismen im Deutschen und Tschechischen: Ein Vergleich anhand ausgewählter journalistischer Texte über EU-Ereignisse
Mgr. Radka Uhlířová -
Lužickosrbské jazyky: mezi polštinou a češtinou
Bc. Marie Pazourová -
Asimilace a disimilace v ruštině ve srovnání s češtinou
Bc. Ondřej Macák
Název
Vložil
Vloženo
Práva
Složky
Soubory
5. 12. 2016
30. 1. 2017
1. 2. 2017




