Diplomová práce

Dopady změn trénovacích dat na přesnost značkování korpusu

Effects of training data modification on corpus tagging precision

Bc. Ondřej Svoboda, učo 359558
Anotace

Práce se věnuje ručním i automatickým úpravám českého desambiguovaného korpusu DESAM, vývoji měřicích nástrojů a jejich využití ve zkoumání vlivu změn anotace korpusu na úspěšnost automatického morfologického značkování prostřednictvím křížové validace.

Abstract

The thesis gives an account of both manual and automatic modifications of DESAM, a disambiguated corpus of written Czech. It describes the development and application of a set of tools to measure how changes to the corpus and its annotation affect the accuracy of POS tagging in cross-validation scenarios.

Zadání práce
V morfologické anotaci českého korpusu DESAM student odhalí statisticky významné nedostatky a navrhne takové ruční i dávkové úpravy přidělených značek i tagsetu, které povedou ke zvýšení přesnosti značkování. Dopady změn změří s využitím programu RFTagger.
Práce zkontrolována:
31. 1. 2017 15:22, RNDr. Miloš Jakubíček, Ph.D., učo 172962
Jazyk práce
angličtina angličtina
Termín obhajoby
3. 2. 2017
Práce byla úspěšně obhájena

Vedoucí

RNDr. Miloš Jakubíček, Ph.D., učo 172962
ÚČJ FF MU

Oponent

RNDr. Vojtěch Kovář, Ph.D., učo 139915
ÚČJ FF MU

Masarykova univerzita Filozofická fakulta
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.