2011
Derivační analyzátor češtiny
ŠMERK, Pavel a Dana HLAVÁČKOVÁZákladní údaje
Originální název
Derivační analyzátor češtiny
Název anglicky
Czech Derivational Analyser
Autoři
ŠMERK, Pavel (203 Česká republika, garant, domácí) a Dana HLAVÁČKOVÁ (203 Česká republika, domácí)
Vydání
2011
Další údaje
Jazyk
čeština
Typ výsledku
Software
Obor
60200 6.2 Languages and Literature
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Kód RIV
RIV/00216224:14330/11:00056895
Organizační jednotka
Fakulta informatiky
Klíčová slova anglicky
derivational morphology; derivational analysis; Czech morphology
Technické parametry
Odpovědná osoba pro jednání: Pavel Šmerk, Fakulta informatiky, Masarykova univerzita, Botanická 68a, Brno 60200, e-mail: smerk@mail.muni.cz, tel.: 549494347
Změněno: 18. 4. 2012 10:57, RNDr. Pavel Šmerk, Ph.D.
V originále
Standardní morfologické analyzátory nabízejí ke vstupnímu slovu jeho základní tvar, ale neposkytují (nebo jen omezeně) informace o příbuzných slovech typu otec-otcův, Praha-pražský, řezat-řezání ap. Taková informace může být velmi užitečná při indexaci textu pro vyhledávání nebo při syntaktické analýze přirozeného jazyka. Derivační analyzátor češtiny je rychlý analyzátor poskytující informace o derivačních vztazích mezi slovy, který je dostupný jak ve formě knihovny funkcí, tak i řádkového programu. Analyzátor je založený na konečných automatech a částečně využívá algoritmy Jana Daciuka pro tvorbu minimálních konečných automatů, z čehož plyne jak rychlost analýzy, tak jednoduchost, a tedy udržovatelnost a snadná rozšiřitelnost kódu. Analyzátor má v současné době data pouze pro češtinu, ale řešení je obecné a použitelné i pro jiné jazyky.
Anglicky
Common morphological analysers offer lemmatization, but they do not have an information (or only to a little extent) on derived words. Such information can be very helpful for indexing texts for searching or for a syntactical analysis of the natural language. Our Czech Derivational Analyser is a fast tool which offers an information on derivational relations between words. The analyser is available in the form of a command line tool or as a library in the form of calling functions in the C++ language. The analyser is based on finite automata and partially uses Jan Daciuk's algorithms for creating minimal finite states automata, so that it is both fast and easily maintainable. On the present, we have data only for Czech, but the tool itself can be used for other languages as well.
Návaznosti
LC536, projekt VaV |
|