D 2025

Lost in Morphology - Enhancing Bilingual Lexicon Induction with Lemmatisation

DENISOVÁ, Michaela a Pavel RYCHLÝ

Základní údaje

Originální název

Lost in Morphology - Enhancing Bilingual Lexicon Induction with Lemmatisation

Autoři

DENISOVÁ, Michaela ORCID a Pavel RYCHLÝ

Vydání

Brno, Proceedings of the Nineteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, od s. 3-14, 12 s. 2025

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Označené pro přenos do RIV

Ano

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1858-3

ISSN

Klíčová slova anglicky

Bilingual lexicon induction; Morphology; Lemmatisation; Evaluation

Příznaky

Recenzováno
Změněno: 7. 12. 2025 15:24, Mgr. Michaela Denisová

Anotace

V originále

Bilingual Lexicon Induction (BLI) is a fundamental task in cross-lingual word embedding (CWE) evaluation, aimed at retrieving word translations from monolingual corpora in two languages. However, morphological complexity poses an intractable challenge, where translations deemed incorrect tend to be morphological variations of the correct ones. This study explores the role of lemmatisation in mitigating this issue by comparing two integration strategies: (1) pre-alignment lemmatisation, applied before training monolingual word embeddings (MWEs), and (2) post-retrieval lemmatisation, applied to retrieved target words. We conduct experiments using three state-of-the-art CWEs across a wide range of language pairs, comparing Slavonic and other language families, with varying morphological complexity. Our findings reveal notable differences between the two approaches: post-retrieval lemmatisation proves more beneficial for less morphologically complex language pairs, while pre-alignment lemmatisation performs well for those with moderate complexity, and for highly inflected languages, the choice of approach has minimal impact.

Návaznosti

MUNI/A/1638/2024, interní kód MU
Název: Umělá inteligence a správa komplexních rozsáhlých dat
Investor: Masarykova univerzita, Umělá inteligence a správa komplexních rozsáhlých dat