D 2011

Anotácia dát

RAMBOUSEK, Adam a Marek GRÁC

Základní údaje

Originální název

Anotácia dát

Název česky

Anotace dat

Název anglicky

Data Annotation

Autoři

RAMBOUSEK, Adam (203 Česká republika, domácí) a Marek GRÁC (703 Slovensko, garant, domácí)

Vydání

Ostrava, Znalosti 2011, sborník příspěvků, od s. 263-266, 4 s. 2011

Nakladatel

Fakulta elektrotechniky a informatiky, VŠB-Technická univerzita Ostrava

Další údaje

Jazyk

slovenština

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Slovensko

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/11:00051849

Organizační jednotka

Fakulta informatiky

ISBN

978-80-248-2369-0

Klíčová slova česky

anotace; korpusy; shoda anotátorů

Klíčová slova anglicky

annotation;corpora;inter-annotator agreement

Štítky

Změněno: 18. 4. 2012 00:37, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Práca s prirodzeným jazykom vyžaduje rozsiahle dátové zdroje -- korpusy. Čím viac informácií z nich dokážeme extrahovať, tým sú pre nás užitočnejšie. Niektoré úlohy však nie je možné kvalitne značkovať pomocou automatických nástrojov. V našom príspevku sa venujeme problematike manuálneho resp. poloautomatického značkovania jazykových zdrojov. Reflektujeme v nich skúsenosti získané z viacerých projektov, ktoré sa líšili množstvom anotátorov, ich skúsenosťami, druhom anotovaných dát a v neposlednej rade aj kvalitou anotátorov.

Anglicky

Natural language processing needs large data resources -- corpora. The more information we can extract, the more useful they are. However it is not possible to annotate some information automatically in good quality. This paper deals with manual and semi-automatical annotation of language resources. It summarize the experience from several projects that differ in amount of annotators, their experience, data type and annotator quality.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky