2022
HFT: High Frequency Tokens for Low-Resource NMT
SIGNORONI, Edoardo a Pavel RYCHLÝZákladní údaje
Originální název
HFT: High Frequency Tokens for Low-Resource NMT
Autoři
SIGNORONI, Edoardo (380 Itálie, domácí) a Pavel RYCHLÝ (203 Česká republika, domácí)
Vydání
Gyeongju, Republic of Korea, Proceedings of the Fifth Workshop on Technologies for Machine Translation of Low-Resource Languages (LoResMT 2022), od s. 56-63, 8 s. 2022
Nakladatel
Association for Computational Linguistics
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10200 1.2 Computer and information sciences
Stát vydavatele
Spojené státy
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Kód RIV
RIV/00216224:14330/22:00127008
Organizační jednotka
Fakulta informatiky
ISSN
Klíčová slova anglicky
Machine Translation; Tokenization
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 15. 5. 2024 09:10, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
Tokenization has been shown to impact the quality of downstream tasks, such as Neural Machine Translation (NMT), which is susceptible to out-of-vocabulary words and low frequency training data. Current state-of-the-art algorithms have been helpful in addressing the issues of out-of-vocabulary words, bigger vocabulary sizes and token frequency by implementing subword segmentation. We argue, however, that there is still room for improvement, in particular regarding low-frequency tokens in the training data. In this paper, we present “High Frequency Tokenizer”, or HFT, a new language-independent subword segmentation algorithm that addresses this issue. We also propose a new metric to measure the frequency coverage of a tokenizer’s vocabulary, based on a frequency rank weighted average of the frequency values of its items. We experiment with a diverse set of language corpora, vocabulary sizes, and writing systems and report improvements on both frequency statistics and on the average length of the output. We also observe a positive impact on downstream NMT.
Návaznosti
EF19_073/0016943, projekt VaV |
| ||
LM2018101, projekt VaV |
| ||
MUNI/IGA/1334/2021, interní kód MU |
|