D 2025

Named Entity Discovery and Alignment in Parallel Data.

NEVĚŘILOVÁ, Zuzana

Základní údaje

Originální název

Named Entity Discovery and Alignment in Parallel Data.

Vydání

Volume 3. Porto (Portugal), Proceedings of the 17th International Conference on Agents and Artificial Intelligence (ICAART 2025), od s. 1215-1220, 6 s. 2025

Nakladatel

SCITEPRESS – Science and Technology Publications, Lda.

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Portugalsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Označené pro přenos do RIV

Ne

Organizační jednotka

Fakulta informatiky

ISBN

978-989-758-737-5

ISSN

Klíčová slova anglicky

Named Entity Recognition; Named Entity Alignment; Named Entity Discovery; Named Entity Linking

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 2. 2025 14:29, RNDr. Zuzana Nevěřilová, Ph.D.

Anotace

V originále

The paper describes two experiments with named entity discovery and alignment for English-Czech parallel data. In the previous work, we enriched the Parallel Global Voices corpus with named entity recognition (NER) for both languages and named entity linking (NEL) annotations for English. The alignment experiment employs sentence transformers and cosine similarity to identify NE translations from English to Czech and possibly other languages. The discovery experiment uses the same method to find possible translations between named entities in English and Czech n-grams. The described method achieves an F1 score of 0.94 in finding alignments between recognized entities. However, the same method can also discover unknown named entities with an F1 score of 0.70. The result indicates the method can be used to recognize named entities in parallel data in cases where no NER model is available with sufficient quality.

Návaznosti

LM2023062, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy