GRÁC, Marek. Building Annotated Corpora without Experts. In Daniela Majchráková, Radiovan Garabík. Natural Language Processing, Multilinguality. Bratislava, Slovensko: Slovak National Corpus, 2011. s. 81-88, 8 s. ISBN 978-80-263-0049-6.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Building Annotated Corpora without Experts
Autoři GRÁC, Marek (703 Slovensko, garant, domácí).
Vydání Bratislava, Slovensko, Natural Language Processing, Multilinguality, od s. 81-88, 8 s. 2011.
Nakladatel Slovak National Corpus
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Slovensko
Utajení není předmětem státního či obchodního tajemství
Kód RIV RIV/00216224:14330/11:00049482
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-0049-6
Klíčová slova česky korpus anotování
Klíčová slova anglicky corpus annotation crowdsourcing
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: Mgr. Marek Grác, Ph.D., učo 50728. Změněno: 25. 11. 2011 12:27.
Anotace
In this paper, we present a low-cost approach of building a multi-purpose language resource for Czech, based on currently available results of previous work done by various teams. We focus on the first phase that consists of verifying validity of automatically discovered syntactic elements in 10 000 sentences by 47 human annotators. Due to the number of annotators and very limited time for training, existing heavy-weight techniques for building annotated corpora were not applicable. We have decided to avoid using experts when results between annotators differed. This means that our corpus does not offer ultimate answers, but raw data and models for obtaining ``correct'' answer tailored to user's application. Finally we discuss the currently achieved results and future plans.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centra základního výzkumu
1ET100300419, projekt VaVNázev: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Akademie věd ČR, Informační společnost (Národní program výzkumu)
VytisknoutZobrazeno: 13. 8. 2020 17:03