Detailed Information on Publication Record
2010
Utilizing Linguistic Resources: Theory and Practical Experience
NĚMČÍK, VáclavBasic information
Original name
Utilizing Linguistic Resources: Theory and Practical Experience
Name in Czech
Využití lingvistických zdrojů: teorie a praktické zkušenosti
Authors
NĚMČÍK, Václav (203 Czech Republic, guarantor, belonging to the institution)
Edition
Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing 2010, p. 47-51, 5 pp. 2010
Publisher
Masarykova Univerzita
Other information
Language
English
Type of outcome
Stať ve sborníku
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
Publication form
printed version "print"
References:
RIV identification code
RIV/00216224:14330/10:00051587
Organization unit
Faculty of Informatics
ISBN
978-80-7399-246-0
Keywords (in Czech)
lingvistické zdroje; korpusy; teorie; praxe
Keywords in English
linguistic resources; corpora; theory; practice
Tags
Změněno: 26/7/2021 01:21, Mgr. Václav Němčík
V originále
The Prague Dependency Treebank (henceforth PDT) is a large collection of texts in Czech. It contains several layers of rich annotation, ranging from morphology to deep syntax. It is unique in its size and theoretical background, especially for a language like Czech, which can be, with regard to the number of its speakers, considered a small language. In this article, we use PDT 2.0 to demonstrate that within real NLP systems, complex annotations may cut both ways. We present several issues that might pose problems when extracting data from PDT, and complex structures in general, and hint on possible solutions.
In Czech
Prague Dependency Treebank (dále PDT) je rozsáhlý soubor textů v českém jazyce. Obsahuje bohatou anotaci na několika rovinách, od morfologie po hloubkovou syntax. Jde o unikát co do svého rozsahu i teoretického pozadí, tím větší, že byl vytvořen pro češtinu, která je co do počtu mluvčích malým jazykem. V tomto článku uvádíme PDT 2.0 jako příklad, že komplexnost anotace s sebou může nést jak výhody, tak nevýhody. Zmiňujeme problémy, které mohou nastat při extrakci některých typů dat z PDT a korpusů s komplexní anotační strukturou obecně. Naznačujeme možné alternativní přístupy.
Links
LC536, research and development project |
| ||
2C06009, research and development project |
|