LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus

J 2006

LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus

CINKOVÁ, Silvie a Jan POMIKÁLEK

Základní údaje

Originální název

LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus

Název česky

LEMPAS: Lematizátor pro švédský korpus PAROLE

Autoři

CINKOVÁ, Silvie a Jan POMIKÁLEK

Vydání

Prague Bulletin of Mathematical Linguistics, Praha, 2006, 0032-6585

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/06:00018565

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

LEMPAS; PAROLE; Swedish; lemmatizer; rule-based

Štítky

lemmatizer, LEMPAS, parole, rule-based, Swedish

Změněno: 26. 4. 2011 16:26, RNDr. Jan Pomikálek, Ph.D.

Anotace

ORIG CZ

V originále

LEMPAS, the lemmatizer for the Swedish corpus PAROLE, came into existence as a by-product of running the Sketch Engine (Kilgarriff et al.) on Swedish, since many of the desirable features of the Sketch Engine, such as building word sketches, are only available for lemmatized corpora. We did not have access to any Swedish lexical sources and the time allowed for the lemmatization was very limited. Consequently, the lemmatizer had no great design ambitions. Initially, we were only attempting to bring related forms together under a pre-lemma, using general rules, and avoiding explicit lists where possible. When the initial rules gave surprisingly good lemmatizations of nouns, verbs and adjectives, we decided to transform the pre-lemmas into real lemmas. The improved lemmatizer made a very good impression. We have tested the program on the manually lemmatized Stockholm-Umea Corpus (SUC), and have analyzed the results.

Česky

LEMPAS, lemmatizátor pro švédský korpus PAROLE, vznikl jako vedlejší produkt práce s aplikací Sketch Engine (Kilgarrif a spol.) na švédštině, neboť řada užitečných funkcí této aplikace, jako například tvorba word sketches, je dostupná pouze pro lemmatizované korpusy. Něměli jsme přístup k žádným lexikálním zdrojům pro švédštinu a čas pro provedení lemmatizace byl velmi omezen. Lemmatizátor tedy neměl velké ambice. Nejprve jsme se pouze snažili spojit související slovní tvary do společných pre-lemmat s použitím obecných pravidel, aniž bychom tvořili seznamy konkrétních slov. Když prvotní pravidla dávala překvapivě dobré výsledky při lemmatizaci podstatných jmen, sloves a přídavných jmen, jsme se rozhodli převést pre-lemmata na skutečná lemmata. Finální program jsme testovali na manuálně lemmatizovaném korpus SUC (Stockholm-Umea Corpus) a provedli analýzu výsledků.

Návaznosti

LC536, projekt VaV

Název: Centrum komputační lingvistiky

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky

1ET100300419, projekt VaV

Název: Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu

Investor: Akademie věd ČR, Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu

2C06009, projekt VaV

Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce

Přehled o publikaci