2024
Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder
PORTEŠ, David a Aleš HORÁKZákladní údaje
Originální název
Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder
Název česky
Generování vysoce kvalitních F0 vektorových reprezentací pomocí vektorově kvantizovaného variačního autoenkodéru
Autoři
PORTEŠ, David a Aleš HORÁK
Vydání
Cham, Text, Speech, and Dialogue, od s. 139-148, 10 s. 2024
Nakladatel
Springer Nature Switzerland
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10200 1.2 Computer and information sciences
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
paměťový nosič (CD, DVD, flash disk)
Impakt faktor
Impact factor: 0.402 v roce 2005
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/24:00136935
Organizační jednotka
Fakulta informatiky
ISBN
978-3-031-70565-6
ISSN
UT WoS
EID Scopus
Klíčová slova česky
Základní frekvence; Prozódie; Vektorově kvantizovaný variační autoenkodér; Vektorové reprezentace
Klíčová slova anglicky
Fundamental Frequency; Prosody; VQ-VAE; Vector Embeddings
Štítky
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 4. 4. 2025 12:09, RNDr. Pavel Šmerk, Ph.D.
V originále
Language models operating on discrete audio representa- tions are increasingly becoming the go-to framework for many speech- processing tasks. Recently, discrete embeddings of the fundamental fre- AQ1 quency (F0), have been shown to improve performance across a variety of tasks. However, the benefits of using F0 embeddings can only be as good as the embeddings themselves. Therefore, in this paper, we present an exhaustive study on using the Vector-Quantized Variational Autoencoder (VQ-VAE) to generate high-quality embeddings of the F0 curve. We experiment with various input transformations that focus on handling unvoiced regions of the F0, which are regions where F0 is not defined. For each transformation, we perform an exhaustive grid search over the embedding size and codebook size parameters, in order to achieve high- est possible embedding quality. Our experiments are conducted on two different-sized datasets, LJSpeech and LibriTTS, and, in total, comprise over 140 different experiment settings. We reach results ranging from 0.53% to 4.29% F0 Frame Error (FFE), depending on the dataset and preprocessing strategy used, and we publish our best models on the Hug- gingFace website.
Česky
Jazykové modely fungující na diskrétních audio reprezentacích se stále více stávají oblíbeným rámcem pro mnoho úloh zpracování řeči. Nedávno bylo prokázáno, že diskrétní vektorové reprezentace základní frekvence (F0) zlepšují výkon napříč různými úlohami. Avšak výhody použití F0 vektorových reprezentací jsou omezené kvalitou samotných reprezentací. Proto v tomto článku představujeme důkladnou studii, která se zaměřuje na použití vektorově kvantizovaného variačního autoenkodéru (VQ-VAE) ke generování vysoce kvalitních reprezentací křivky F0. Experimentujeme s různými vstupními transformacemi, které se soustředí na zpracování neznělých oblastí F0, což jsou oblasti, kde F0 není definována. Pro každou transformaci provádíme důkladné vyhledávání optimální velikosti reprezentací a velikosti kódující knihovny, abychom dosáhli co nejvyšší kvality reprezentací. Naše experimenty jsou prováděny na dvou datových sadách různé velikosti, LJSpeech a LibriTTS, a celkem zahrnují více než 140 různých experimentálních nastavení. Dosahujeme výsledků v rozmezí od 0,53 % do 4,29 % chybovosti v metrice FFE, v závislosti na použité datové sadě a strategii předzpracování, a naše nejlepší modely publikujeme na webu HuggingFace.
Návaznosti
| MUNI/A/1590/2023, interní kód MU |
|