2011
Building Annotated Corpora without Experts
GRÁC, MarekZákladní údaje
Originální název
Building Annotated Corpora without Experts
Autoři
GRÁC, Marek (703 Slovensko, garant, domácí)
Vydání
Bratislava, Slovensko, Natural Language Processing, Multilinguality, od s. 81-88, 8 s. 2011
Nakladatel
Slovak National Corpus
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Slovensko
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/11:00049482
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-0049-6
Klíčová slova česky
korpus anotování
Klíčová slova anglicky
corpus annotation crowdsourcing
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 25. 11. 2011 12:27, Mgr. Marek Grác, Ph.D.
Anotace
V originále
In this paper, we present a low-cost approach of building a multi-purpose language resource for Czech, based on currently available results of previous work done by various teams. We focus on the first phase that consists of verifying validity of automatically discovered syntactic elements in 10 000 sentences by 47 human annotators. Due to the number of annotators and very limited time for training, existing heavy-weight techniques for building annotated corpora were not applicable. We have decided to avoid using experts when results between annotators differed. This means that our corpus does not offer ultimate answers, but raw data and models for obtaining ``correct'' answer tailored to user's application. Finally we discuss the currently achieved results and future plans.
Návaznosti
LC536, projekt VaV |
| ||
1ET100300419, projekt VaV |
|