Z 2009

Majka – rychlý morfologický analyzátor

ŠMERK, Pavel a Pavel RYCHLÝ

Základní údaje

Originální název

Majka – rychlý morfologický analyzátor

Název anglicky

Majka - fast morphological analyzer

Autoři

ŠMERK, Pavel (203 Česká republika, garant, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí)

Vydání

2009

Další údaje

Jazyk

čeština

Typ výsledku

Poloprovoz, ověřená technologie, odrůda, plemeno

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/09:00047873

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

morfologie; gramatické značky; lemmatizace; značkování

Klíčová slova anglicky

morphology; annotation; Czech; lemmatization; grammatical tags

Technické parametry

rychlý morfologický analyzátor, smlouva se Seznam.cz (IČ 26168685) ze dne 30.11.2009
Změněno: 5. 5. 2011 23:36, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Majka je rychlý morfologický analyzátor ve formě knihovny a řádkového programu. Systém Majka navazuje na předchozí systém pro morfologickou analýzu Ajka, se kterým dává zhruba stejné výsledky. Majka je ale zcela nová implementace kompletně založená na konečných automatech, proto je také mnohonásobně rychlejší a flexibilnější. V základní podobě systém k zadanému slovnímu tvaru přiřadí: základní tvar a gramatickou značku, všechna slova patřící ke stejnému lemmatu, všechna možná slova s diakritikou.

Anglicky

Majka is a fast tool which assigns a lemma (basic form) and all possible grammatical tags to each word form on the input. It can be used also for word forms generation or diacritics restoration. Majka is available in the form of a command line tool for batch processing of text files or as a library in the form of calling functions in the C language. Although Majka builds on the previous system for morphological analysis Ajka, which gives roughly the same results, it is an entirely new and independent implementation completely based on finite automata and it is also much faster and more flexible than the previous system.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce