2025
Evaluating Training Data Construction Strategies for Token-Level Language Identification
BEDNAŘÍKOVÁ, Emma a Pavel RYCHLÝZákladní údaje
Originální název
Evaluating Training Data Construction Strategies for Token-Level Language Identification
Autoři
Vydání
Brno, Czech Republic, Recent Advances in Slavonic Natural Language Processing, RASLAN 2025, od s. 45-53, 9 s. 2025
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10200 1.2 Computer and information sciences
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Označené pro přenos do RIV
Ano
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-1858-3
ISSN
Klíčová slova anglicky
Languageidentification; Code-switching; Data augmentation
Změněno: 13. 1. 2026 12:45, Bc. Barbora Stenglová
Anotace
V originále
This paper contributes to research on developing token-level language identification tool. The tool is designed to recognize Czech and languages frequently spoken in Czechia, such as Slovak and Ukrainian, while also covering additional languages. In this study, multiple datasets are created using three distinct strategies. The datasets are further used to fine-tune a pre-trained language model, and the resulting models are evaluated on datasets containing code-switching.
Návaznosti
| LM2023062, projekt VaV |
|