D 2010

Through Low-Cost Annotation to Reliable Parsing Evaluation

JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ a Marek GRÁC

Základní údaje

Originální název

Through Low-Cost Annotation to Reliable Parsing Evaluation

Autoři

JAKUBÍČEK, Miloš (203 Česká republika, domácí), Vojtěch KOVÁŘ (203 Česká republika, garant, domácí) a Marek GRÁC (703 Slovensko, domácí)

Vydání

Tokyo, PACLIC 24 Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation, od s. 555-562, 8 s. 2010

Nakladatel

Waseda University

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Japonsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/10:00065887

Organizační jednotka

Fakulta informatiky

ISBN

978-4-905166-00-9

Klíčová slova anglicky

noun phrases;parsing;parser evaluation;annotation;inter-annotator agreement

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 30. 4. 2014 10:04, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

In this paper, we present an~application-driven low-cost concept of building a~multi-purpose language resource for Czech which is based on currently available results of previous work by various research teams active in the area of natural language processing. We particularly focus on the first phase which consists in extracting noun phrases from a~morphologically annotated corpus and providing a~simple and easy-to-use application for verifying them. For the extraction task, three Czech parsers have been accommodated and evaluated. Finally we discuss the currently achieved results in the context of ongoing work and show that they lead to consistent and reliable results.

Návaznosti

GAP401/10/0792, projekt VaV
Název: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
248307, interní kód MU
Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce