KOVÁŘ, Vojtěch and Miloš JAKUBÍČEK. Prague Dependency Treebank Annotation Errors: A Preliminary Analysis. In RASLAN 2009 : Recent Advances in Slavonic Natural Language Processing. 1st ed. Brno: Masaryk University, 2009, p. 101-108. ISBN 978-80-210-5048-8.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Prague Dependency Treebank Annotation Errors: A Preliminary Analysis
Name in Czech Pražský závislostní stromový korpus: předběžná analýza
Authors KOVÁŘ, Vojtěch (203 Czech Republic, guarantor) and Miloš JAKUBÍČEK (203 Czech Republic).
Edition 1. vyd. Brno, RASLAN 2009 : Recent Advances in Slavonic Natural Language Processing, p. 101-108, 8 pp. 2009.
Publisher Masaryk University
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
WWW URL
RIV identification code RIV/00216224:14330/09:00038385
Organization unit Faculty of Informatics
ISBN 978-80-210-5048-8
Keywords (in Czech) textové chyby, anotace, Pražský závislostní stromový korpus; PDT
Keywords in English error in text; annotation; Prague Dependency Treebank; PDT
Tags International impact, Reviewed
Changed by Changed by: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Changed: 20/10/2010 13:07.
Abstract
This paper presents a basic analysis of syntactic annotation errors and inconsistencies in the Prague Dependency Treebank, the biggest corpus of Czech with manual syntactic annotation. The corpus is used for developing and testing of many syntactic analysers of Czech and the problems in the annotation have an essential impact on the evaluation of the quality of these parsers and the results of precision measurements. We identify some of the basic annotation problems and in some cases, we outline possible solutions.
Abstract (in Czech)
Tento článek prezentuje základní analýzu chyb a nekonsistencí v syntaktické anotaci Pražského závislostního stromové korpusu (Prague Dependency Treebank, PDT), největšího českého ručně anotovaného korpusu tohoto druhu. Tento korpus je využíván pro vývoj a vyhodnocení mnoha syntaktických analyzátorů pro češtinu a problémy v anotaci mají zásadní dopad na vyhodnocení kvality a přesnosti těchto analyzátorů. V článku identifikujeme základní anotační problémy a v některých případech nastiňujeme jejich možná řešení.
Links
LC536, research and development projectName: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
PrintDisplayed: 28/5/2024 10:56