D 2010

Utilizing Linguistic Resources: Theory and Practical Experience

NĚMČÍK, Václav

Základní údaje

Originální název

Utilizing Linguistic Resources: Theory and Practical Experience

Název česky

Využití lingvistických zdrojů: teorie a praktické zkušenosti

Autoři

NĚMČÍK, Václav (203 Česká republika, garant, domácí)

Vydání

Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing 2010, od s. 47-51, 5 s. 2010

Nakladatel

Masarykova Univerzita

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/10:00051587

Organizační jednotka

Fakulta informatiky

ISBN

978-80-7399-246-0

Klíčová slova česky

lingvistické zdroje; korpusy; teorie; praxe

Klíčová slova anglicky

linguistic resources; corpora; theory; practice
Změněno: 26. 7. 2021 01:21, Mgr. Václav Němčík

Anotace

V originále

The Prague Dependency Treebank (henceforth PDT) is a large collection of texts in Czech. It contains several layers of rich annotation, ranging from morphology to deep syntax. It is unique in its size and theoretical background, especially for a language like Czech, which can be, with regard to the number of its speakers, considered a small language. In this article, we use PDT 2.0 to demonstrate that within real NLP systems, complex annotations may cut both ways. We present several issues that might pose problems when extracting data from PDT, and complex structures in general, and hint on possible solutions.

Česky

Prague Dependency Treebank (dále PDT) je rozsáhlý soubor textů v českém jazyce. Obsahuje bohatou anotaci na několika rovinách, od morfologie po hloubkovou syntax. Jde o unikát co do svého rozsahu i teoretického pozadí, tím větší, že byl vytvořen pro češtinu, která je co do počtu mluvčích malým jazykem. V tomto článku uvádíme PDT 2.0 jako příklad, že komplexnost anotace s sebou může nést jak výhody, tak nevýhody. Zmiňujeme problémy, které mohou nastat při extrakci některých typů dat z PDT a korpusů s komplexní anotační strukturou obecně. Naznačujeme možné alternativní přístupy.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce