2025
Lost in Morphology - Enhancing Bilingual Lexicon Induction with Lemmatisation
DENISOVÁ, Michaela a Pavel RYCHLÝZákladní údaje
Originální název
Lost in Morphology - Enhancing Bilingual Lexicon Induction with Lemmatisation
Autoři
DENISOVÁ, Michaela ORCID a Pavel RYCHLÝ
Vydání
Brno, Proceedings of the Nineteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, od s. 3-14, 12 s. 2025
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Označené pro přenos do RIV
Ano
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-1858-3
ISSN
Klíčová slova anglicky
Bilingual lexicon induction; Morphology; Lemmatisation; Evaluation
Příznaky
Recenzováno
Změněno: 7. 12. 2025 15:24, Mgr. Michaela Denisová
Anotace
V originále
Bilingual Lexicon Induction (BLI) is a fundamental task in cross-lingual word embedding (CWE) evaluation, aimed at retrieving word translations from monolingual corpora in two languages. However, morphological complexity poses an intractable challenge, where translations deemed incorrect tend to be morphological variations of the correct ones. This study explores the role of lemmatisation in mitigating this issue by comparing two integration strategies: (1) pre-alignment lemmatisation, applied before training monolingual word embeddings (MWEs), and (2) post-retrieval lemmatisation, applied to retrieved target words. We conduct experiments using three state-of-the-art CWEs across a wide range of language pairs, comparing Slavonic and other language families, with varying morphological complexity. Our findings reveal notable differences between the two approaches: post-retrieval lemmatisation proves more beneficial for less morphologically complex language pairs, while pre-alignment lemmatisation performs well for those with moderate complexity, and for highly inflected languages, the choice of approach has minimal impact.
Návaznosti
| MUNI/A/1638/2024, interní kód MU |
|