NĚMČÍK, Václav. Utilizing Linguistic Resources: Theory and Practical Experience. In Proceedings of Recent Advances in Slavonic Natural Language Processing 2010. Brno: Masarykova Univerzita, 2010, s. 47-51. ISBN 978-80-7399-246-0.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Utilizing Linguistic Resources: Theory and Practical Experience
Název česky Využití lingvistických zdrojů: teorie a praktické zkušenosti
Autoři NĚMČÍK, Václav (203 Česká republika, garant, domácí).
Vydání Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing 2010, od s. 47-51, 5 s. 2010.
Nakladatel Masarykova Univerzita
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/10:00051587
Organizační jednotka Fakulta informatiky
ISBN 978-80-7399-246-0
Klíčová slova česky lingvistické zdroje; korpusy; teorie; praxe
Klíčová slova anglicky linguistic resources; corpora; theory; practice
Štítky annotation, corpora, lingustic resources, practice, theory
Změnil Změnil: Mgr. Václav Němčík, učo 39616. Změněno: 26. 7. 2021 01:21.
Anotace
The Prague Dependency Treebank (henceforth PDT) is a large collection of texts in Czech. It contains several layers of rich annotation, ranging from morphology to deep syntax. It is unique in its size and theoretical background, especially for a language like Czech, which can be, with regard to the number of its speakers, considered a small language. In this article, we use PDT 2.0 to demonstrate that within real NLP systems, complex annotations may cut both ways. We present several issues that might pose problems when extracting data from PDT, and complex structures in general, and hint on possible solutions.
Anotace česky
Prague Dependency Treebank (dále PDT) je rozsáhlý soubor textů v českém jazyce. Obsahuje bohatou anotaci na několika rovinách, od morfologie po hloubkovou syntax. Jde o unikát co do svého rozsahu i teoretického pozadí, tím větší, že byl vytvořen pro češtinu, která je co do počtu mluvčích malým jazykem. V tomto článku uvádíme PDT 2.0 jako příklad, že komplexnost anotace s sebou může nést jak výhody, tak nevýhody. Zmiňujeme problémy, které mohou nastat při extrakci některých typů dat z PDT a korpusů s komplexní anotační strukturou obecně. Naznačujeme možné alternativní přístupy.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
VytisknoutZobrazeno: 31. 5. 2024 18:38