R 2011

Derivační analyzátor češtiny

ŠMERK, Pavel a Dana HLAVÁČKOVÁ

Základní údaje

Originální název

Derivační analyzátor češtiny

Název anglicky

Czech Derivational Analyser

Autoři

ŠMERK, Pavel (203 Česká republika, garant, domácí) a Dana HLAVÁČKOVÁ (203 Česká republika, domácí)

Vydání

2011

Další údaje

Jazyk

čeština

Typ výsledku

Software

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/11:00056895

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

derivational morphology; derivational analysis; Czech morphology

Technické parametry

Odpovědná osoba pro jednání: Pavel Šmerk, Fakulta informatiky, Masarykova univerzita, Botanická 68a, Brno 60200, e-mail: smerk@mail.muni.cz, tel.: 549494347
Změněno: 18. 4. 2012 10:57, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Standardní morfologické analyzátory nabízejí ke vstupnímu slovu jeho základní tvar, ale neposkytují (nebo jen omezeně) informace o příbuzných slovech typu otec-otcův, Praha-pražský, řezat-řezání ap. Taková informace může být velmi užitečná při indexaci textu pro vyhledávání nebo při syntaktické analýze přirozeného jazyka. Derivační analyzátor češtiny je rychlý analyzátor poskytující informace o derivačních vztazích mezi slovy, který je dostupný jak ve formě knihovny funkcí, tak i řádkového programu. Analyzátor je založený na konečných automatech a částečně využívá algoritmy Jana Daciuka pro tvorbu minimálních konečných automatů, z čehož plyne jak rychlost analýzy, tak jednoduchost, a tedy udržovatelnost a snadná rozšiřitelnost kódu. Analyzátor má v současné době data pouze pro češtinu, ale řešení je obecné a použitelné i pro jiné jazyky.

Anglicky

Common morphological analysers offer lemmatization, but they do not have an information (or only to a little extent) on derived words. Such information can be very helpful for indexing texts for searching or for a syntactical analysis of the natural language. Our Czech Derivational Analyser is a fast tool which offers an information on derivational relations between words. The analyser is available in the form of a command line tool or as a library in the form of calling functions in the C++ language. The analyser is based on finite automata and partially uses Jan Daciuk's algorithms for creating minimal finite states automata, so that it is both fast and easily maintainable. On the present, we have data only for Czech, but the tool itself can be used for other languages as well.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky