Evaluating Training Data Construction Strategies for
Token-Level Language Identification

D 2025

Evaluating Training Data Construction Strategies for Token-Level Language Identification

BEDNAŘÍKOVÁ, Emma a Pavel RYCHLÝ

Základní údaje

Originální název

Evaluating Training Data Construction Strategies for Token-Level Language Identification

Autoři

BEDNAŘÍKOVÁ, Emma a Pavel RYCHLÝ

Vydání

Brno, Czech Republic, Recent Advances in Slavonic Natural Language Processing, RASLAN 2025, od s. 45-53, 9 s. 2025

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Proceedings of the Nineteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2025.

Označené pro přenos do RIV

Ano

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1858-3

ISSN

Klíčová slova anglicky

Languageidentification; Code-switching; Data augmentation

Změněno: 13. 1. 2026 12:45, Bc. Barbora Stenglová

Anotace

V originále

This paper contributes to research on developing token-level language identification tool. The tool is designed to recognize Czech and languages frequently spoken in Czechia, such as Slovak and Ukrainian, while also covering additional languages. In this study, multiple datasets are created using three distinct strategies. The datasets are further used to fine-tune a pre-trained language model, and the resulting models are evaluated on datasets containing code-switching.

Návaznosti

LM2023062, projekt VaV

Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy

Přehled o publikaci