2006
LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus
CINKOVÁ, Silvie a Jan POMIKÁLEKZákladní údaje
Originální název
LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus
Název česky
LEMPAS: Lematizátor pro švédský korpus PAROLE
Autoři
CINKOVÁ, Silvie a Jan POMIKÁLEK
Vydání
Prague Bulletin of Mathematical Linguistics, Praha, 2006, 0032-6585
Další údaje
Jazyk
angličtina
Typ výsledku
Článek v odborném periodiku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/06:00018565
Organizační jednotka
Fakulta informatiky
Klíčová slova anglicky
LEMPAS; PAROLE; Swedish; lemmatizer; rule-based
Štítky
Změněno: 26. 4. 2011 16:26, RNDr. Jan Pomikálek, Ph.D.
V originále
LEMPAS, the lemmatizer for the Swedish corpus PAROLE, came into existence as a by-product of running the Sketch Engine (Kilgarriff et al.) on Swedish, since many of the desirable features of the Sketch Engine, such as building word sketches, are only available for lemmatized corpora. We did not have access to any Swedish lexical sources and the time allowed for the lemmatization was very limited. Consequently, the lemmatizer had no great design ambitions. Initially, we were only attempting to bring related forms together under a pre-lemma, using general rules, and avoiding explicit lists where possible. When the initial rules gave surprisingly good lemmatizations of nouns, verbs and adjectives, we decided to transform the pre-lemmas into real lemmas. The improved lemmatizer made a very good impression. We have tested the program on the manually lemmatized Stockholm-Umea Corpus (SUC), and have analyzed the results.
Česky
LEMPAS, lemmatizátor pro švédský korpus PAROLE, vznikl jako vedlejší produkt práce s aplikací Sketch Engine (Kilgarrif a spol.) na švédštině, neboť řada užitečných funkcí této aplikace, jako například tvorba word sketches, je dostupná pouze pro lemmatizované korpusy. Něměli jsme přístup k žádným lexikálním zdrojům pro švédštinu a čas pro provedení lemmatizace byl velmi omezen. Lemmatizátor tedy neměl velké ambice. Nejprve jsme se pouze snažili spojit související slovní tvary do společných pre-lemmat s použitím obecných pravidel, aniž bychom tvořili seznamy konkrétních slov. Když prvotní pravidla dávala překvapivě dobré výsledky při lemmatizaci podstatných jmen, sloves a přídavných jmen, jsme se rozhodli převést pre-lemmata na skutečná lemmata. Finální program jsme testovali na manuálně lemmatizovaném korpus SUC (Stockholm-Umea Corpus) a provedli analýzu výsledků.
Návaznosti
| LC536, projekt VaV |
| ||
| 1ET100300419, projekt VaV |
| ||
| 2C06009, projekt VaV |
|