2000
On Disambiguation in Czech Corpora
POPELÍNSKÝ, Lubomír, Tomáš PAVELEK a Tomáš PTÁČNÍKZákladní údaje
Originální název
On Disambiguation in Czech Corpora
Autoři
POPELÍNSKÝ, Lubomír, Tomáš PAVELEK a Tomáš PTÁČNÍK
Vydání
Brno (CZE), 012 s. 2000
Nakladatel
FI MU
Další údaje
Jazyk
angličtina
Typ výsledku
Výzkumná zpráva
Obor
20206 Computer hardware and architecture
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/00:00002818
Organizační jednotka
Fakulta informatiky
Klíčová slova anglicky
Lemma disambiguation; Corpus; Natural language processing; Machine learning
Změněno: 25. 2. 2001 17:39, doc. RNDr. Lubomír Popelínský, Ph.D.
Anotace
V originále
Lemma disambiguation means finding the basic word form, typically nominative singular for nouns or infinitive for verbs. We developed a multistrategy method for lemma disambiguation of unannotated text. The method is based on a combination of inductive logic programming and instance-based learning. We present results of the most important subtasks of lemma disambiguation for Czech language. Although no expert knowledge on Czech grammar has been used the accuracy reaches 90% with a fraction of words remaining ambiguous. We also display first results of tag disambiguation.
Návaznosti
VS97028, projekt VaV |
|