D 2024

The Automatic Determination of Translation Equivalents in Lexicography: What Works and What Doesn’t?

DENISOVÁ, Michaela; Gilles-Maurice DE SCHRYVER a Pavel RYCHLÝ

Základní údaje

Originální název

The Automatic Determination of Translation Equivalents in Lexicography: What Works and What Doesn’t?

Autoři

DENISOVÁ, Michaela ORCID (703 Slovensko, garant, domácí); Gilles-Maurice DE SCHRYVER (56 Belgie) a Pavel RYCHLÝ (203 Česká republika, domácí)

Vydání

Cavtat, Croatia, Proceedings of the XXI EURALEX International Congress, od s. 286-297, 12 s. 2024

Nakladatel

Institut za hrvatski jezik

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Chorvatsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14330/24:00137310

Organizační jednotka

Fakulta informatiky

ISBN

978-953-7967-77-2

ISSN

EID Scopus

2-s2.0-85207499316

Klíčová slova anglicky

Translation equivalent determination; Cross-lingual embedding models; Evaluation

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 30. 7. 2025 15:05, Mgr. Michal Petr

Anotace

V originále

Cross-lingual embedding models act as facilitator of lexical knowledge transfer and offer many advantages, notably their applicability to low-resource and non-standard language pairs, making them a valuable tool for retrieving translation equivalents in lexicography. Despite their potential, these models have primarily been developed with a focus on Natural Language Processing (NLP), leading to significant issues, including flawed training and evaluation data, as well as inadequate evaluation metrics and procedures. In this paper, we introduce cross-lingual embedding models for lexicography, addressing the challenges and limitations inherent in the current NLP-focused research. We demonstrate the problematic aspects across three baseline cross-lingual embedding models and three language pairs and outline possible solutions. We show the importance of high-quality data, advocating that its role is vital compared to algorithmic optimisation in enhancing the effectiveness of these models.

Návaznosti

MUNI/A/1590/2023, interní kód MU
Název: Využití technik umělé inteligence pro zpracování dat, komplexní analýzy a vizualizaci rozsáhlých dat
Investor: Masarykova univerzita, Využití technik umělé inteligence pro zpracování dat, komplexní analýzy a vizualizaci rozsáhlých dat