J 2006

LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus

CINKOVÁ, Silvie a Jan POMIKÁLEK

Základní údaje

Originální název

LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus

Název česky

LEMPAS: Lematizátor pro švédský korpus PAROLE

Autoři

CINKOVÁ, Silvie a Jan POMIKÁLEK

Vydání

Prague Bulletin of Mathematical Linguistics, Praha, 2006, 0032-6585

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/06:00018565

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

LEMPAS; PAROLE; Swedish; lemmatizer; rule-based
Změněno: 26. 4. 2011 16:26, RNDr. Jan Pomikálek, Ph.D.

Anotace

V originále

LEMPAS, the lemmatizer for the Swedish corpus PAROLE, came into existence as a by-product of running the Sketch Engine (Kilgarriff et al.) on Swedish, since many of the desirable features of the Sketch Engine, such as building word sketches, are only available for lemmatized corpora. We did not have access to any Swedish lexical sources and the time allowed for the lemmatization was very limited. Consequently, the lemmatizer had no great design ambitions. Initially, we were only attempting to bring related forms together under a pre-lemma, using general rules, and avoiding explicit lists where possible. When the initial rules gave surprisingly good lemmatizations of nouns, verbs and adjectives, we decided to transform the pre-lemmas into real lemmas. The improved lemmatizer made a very good impression. We have tested the program on the manually lemmatized Stockholm-Umea Corpus (SUC), and have analyzed the results.

Česky

LEMPAS, lemmatizátor pro švédský korpus PAROLE, vznikl jako vedlejší produkt práce s aplikací Sketch Engine (Kilgarrif a spol.) na švédštině, neboť řada užitečných funkcí této aplikace, jako například tvorba word sketches, je dostupná pouze pro lemmatizované korpusy. Něměli jsme přístup k žádným lexikálním zdrojům pro švédštinu a čas pro provedení lemmatizace byl velmi omezen. Lemmatizátor tedy neměl velké ambice. Nejprve jsme se pouze snažili spojit související slovní tvary do společných pre-lemmat s použitím obecných pravidel, aniž bychom tvořili seznamy konkrétních slov. Když prvotní pravidla dávala překvapivě dobré výsledky při lemmatizaci podstatných jmen, sloves a přídavných jmen, jsme se rozhodli převést pre-lemmata na skutečná lemmata. Finální program jsme testovali na manuálně lemmatizovaném korpus SUC (Stockholm-Umea Corpus) a provedli analýzu výsledků.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
1ET100300419, projekt VaV
Název: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
Investor: Akademie věd ČR, Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce