On Disambiguation in Czech Corpora

POPELÍNSKÝ, Lubomír, Tomáš PAVELEK a Tomáš PTÁČNÍK. On Disambiguation in Czech Corpora. Brno (CZE): FI MU, 2000, 012 s.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	On Disambiguation in Czech Corpora
Autoři	POPELÍNSKÝ, Lubomír, Tomáš PAVELEK a Tomáš PTÁČNÍK.
Vydání	Brno (CZE), 012 s. 2000.
Nakladatel	FI MU

Další údaje
Originální jazyk	angličtina
Typ výsledku	Výzkumná zpráva
Obor	20206 Computer hardware and architecture
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Kód RIV	RIV/00216224:14330/00:00002818
Organizační jednotka	Fakulta informatiky
Klíčová slova anglicky	Lemma disambiguation; Corpus; Natural language processing; Machine learning
Štítky	corpus, Lemma disambiguation, machine learning, natural language processing
Změnil	Změnil: doc. RNDr. Lubomír Popelínský, Ph.D., učo 1945. Změněno: 25. 2. 2001 17:39.

Anotace

Lemma disambiguation means finding the basic word form, typically nominative singular for nouns or infinitive for verbs. We developed a multistrategy method for lemma disambiguation of unannotated text. The method is based on a combination of inductive logic programming and instance-based learning. We present results of the most important subtasks of lemma disambiguation for Czech language. Although no expert knowledge on Czech grammar has been used the accuracy reaches 90% with a fraction of words remaining ambiguous. We also display first results of tag disambiguation.

Návaznosti
VS97028, projekt VaV	Název: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
VS97028, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)

VytisknoutZobrazeno: 16. 10. 2024 03:09

On Disambiguation in Czech Corpora

Další aplikace