D 2013

Using Low-Cost Annotation to Train a Reliable Czech Shallow Parser

RADZISZEWSKI, Adam a Marek GRÁC

Základní údaje

Originální název

Using Low-Cost Annotation to Train a Reliable Czech Shallow Parser

Autoři

RADZISZEWSKI, Adam (616 Polsko) a Marek GRÁC (703 Slovensko, garant, domácí)

Vydání

Plzeň, Text, Speech, and Dialogue, od s. 575-582, 8 s. 2013

Nakladatel

Springer Berling Heidelberg

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14210/13:00069444

Organizační jednotka

Filozofická fakulta

ISBN

978-3-642-40584-6

ISSN

UT WoS

000337294900072

Klíčová slova anglicky

corpus annotation; shallow parsing; Czech

Štítky

Změněno: 6. 4. 2015 22:16, Mgr. Vendula Hromádková

Anotace

V originále

Bushbank is a relatively new concept - a type of annotated corpus where annotation is driven by use of automatic tools and the task of human annotators is limited to accepting or rejecting parts of their output. This creates a possibility to obtain annotated corpora of considerable size at relatively low cost. In this paper we ask the question if the Czech Bushbank is reliable enough to be used for a NLP task instead of a traditional corpus with high annotation rigour. We perform evaluation of three different parsers using its shallow syntactic annotation, including a CRF chunker made originally for Polish. The results are very promising, showing that many practical applications could benefit from low-cost annotation.