POPELÍNSKÝ, Lubomír, Tomáš PAVELEK a Tomáš PTÁČNÍK. On Disambiguation in Czech Corpora. Brno (CZE): FI MU. 012 s. 2000.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název On Disambiguation in Czech Corpora
Autoři POPELÍNSKÝ, Lubomír, Tomáš PAVELEK a Tomáš PTÁČNÍK.
Vydání Brno (CZE), 012 s. 2000.
Nakladatel FI MU
Další údaje
Originální jazyk angličtina
Typ výsledku Výzkumná zpráva
Obor 20206 Computer hardware and architecture
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Kód RIV RIV/00216224:14330/00:00002818
Organizační jednotka Fakulta informatiky
Klíčová slova anglicky Lemma disambiguation; Corpus; Natural language processing; Machine learning
Štítky corpus, Lemma disambiguation, machine learning, natural language processing
Změnil Změnil: doc. RNDr. Lubomír Popelínský, Ph.D., učo 1945. Změněno: 25. 2. 2001 17:39.
Anotace
Lemma disambiguation means finding the basic word form, typically nominative singular for nouns or infinitive for verbs. We developed a multistrategy method for lemma disambiguation of unannotated text. The method is based on a combination of inductive logic programming and instance-based learning. We present results of the most important subtasks of lemma disambiguation for Czech language. Although no expert knowledge on Czech grammar has been used the accuracy reaches 90% with a fraction of words remaining ambiguous. We also display first results of tag disambiguation.
Návaznosti
VS97028, projekt VaVNázev: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)
VytisknoutZobrazeno: 20. 4. 2024 00:58