On Disambiguation in Czech Corpora

V 2000

On Disambiguation in Czech Corpora

POPELÍNSKÝ, Lubomír; Tomáš PAVELEK a Tomáš PTÁČNÍK

Základní údaje

Originální název

On Disambiguation in Czech Corpora

Autoři

POPELÍNSKÝ, Lubomír; Tomáš PAVELEK a Tomáš PTÁČNÍK

Vydání

Brno (CZE), 012 s. 2000

Nakladatel

FI MU

Další údaje

Jazyk

angličtina

Typ výsledku

Výzkumná zpráva

Obor

20206 Computer hardware and architecture

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/00:00002818

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

Lemma disambiguation; Corpus; Natural language processing; Machine learning

Štítky

corpus, Lemma disambiguation, machine learning, natural language processing

Změněno: 25. 2. 2001 17:39, doc. RNDr. Lubomír Popelínský, Ph.D.

Anotace

V originále

Lemma disambiguation means finding the basic word form, typically nominative singular for nouns or infinitive for verbs. We developed a multistrategy method for lemma disambiguation of unannotated text. The method is based on a combination of inductive logic programming and instance-based learning. We present results of the most important subtasks of lemma disambiguation for Czech language. Although no expert knowledge on Czech grammar has been used the accuracy reaches 90% with a fraction of words remaining ambiguous. We also display first results of tag disambiguation.

Návaznosti

VS97028, projekt VaV

Název: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)

Přehled o publikaci