D 2011

Building Annotated Corpora without Experts

GRÁC, Marek

Základní údaje

Originální název

Building Annotated Corpora without Experts

Autoři

GRÁC, Marek (703 Slovensko, garant, domácí)

Vydání

Bratislava, Slovensko, Natural Language Processing, Multilinguality, od s. 81-88, 8 s. 2011

Nakladatel

Slovak National Corpus

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Slovensko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/11:00049482

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-0049-6

Klíčová slova česky

korpus anotování

Klíčová slova anglicky

corpus annotation crowdsourcing

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 25. 11. 2011 12:27, Mgr. Marek Grác, Ph.D.

Anotace

V originále

In this paper, we present a low-cost approach of building a multi-purpose language resource for Czech, based on currently available results of previous work done by various teams. We focus on the first phase that consists of verifying validity of automatically discovered syntactic elements in 10 000 sentences by 47 human annotators. Due to the number of annotators and very limited time for training, existing heavy-weight techniques for building annotated corpora were not applicable. We have decided to avoid using experts when results between annotators differed. This means that our corpus does not offer ultimate answers, but raw data and models for obtaining ``correct'' answer tailored to user's application. Finally we discuss the currently achieved results and future plans.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
1ET100300419, projekt VaV
Název: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Akademie věd ČR, Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu