KOVÁŘ, Vojtěch a Miloš JAKUBÍČEK. Prague Dependency Treebank Annotation Errors: A Preliminary Analysis. In RASLAN 2009 : Recent Advances in Slavonic Natural Language Processing. 1. vyd. Brno: Masaryk University, 2009, s. 101-108. ISBN 978-80-210-5048-8.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Prague Dependency Treebank Annotation Errors: A Preliminary Analysis
Název česky Pražský závislostní stromový korpus: předběžná analýza
Autoři KOVÁŘ, Vojtěch (203 Česká republika, garant) a Miloš JAKUBÍČEK (203 Česká republika).
Vydání 1. vyd. Brno, RASLAN 2009 : Recent Advances in Slavonic Natural Language Processing, od s. 101-108, 8 s. 2009.
Nakladatel Masaryk University
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14330/09:00038385
Organizační jednotka Fakulta informatiky
ISBN 978-80-210-5048-8
Klíčová slova česky textové chyby, anotace, Pražský závislostní stromový korpus; PDT
Klíčová slova anglicky error in text; annotation; Prague Dependency Treebank; PDT
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Miloš Jakubíček, Ph.D., učo 172962. Změněno: 20. 10. 2010 13:07.
Anotace
This paper presents a basic analysis of syntactic annotation errors and inconsistencies in the Prague Dependency Treebank, the biggest corpus of Czech with manual syntactic annotation. The corpus is used for developing and testing of many syntactic analysers of Czech and the problems in the annotation have an essential impact on the evaluation of the quality of these parsers and the results of precision measurements. We identify some of the basic annotation problems and in some cases, we outline possible solutions.
Anotace česky
Tento článek prezentuje základní analýzu chyb a nekonsistencí v syntaktické anotaci Pražského závislostního stromové korpusu (Prague Dependency Treebank, PDT), největšího českého ručně anotovaného korpusu tohoto druhu. Tento korpus je využíván pro vývoj a vyhodnocení mnoha syntaktických analyzátorů pro češtinu a problémy v anotaci mají zásadní dopad na vyhodnocení kvality a přesnosti těchto analyzátorů. V článku identifikujeme základní anotační problémy a v některých případech nastiňujeme jejich možná řešení.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VytisknoutZobrazeno: 25. 4. 2024 19:16