D 2024

Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder

PORTEŠ, David a Aleš HORÁK

Základní údaje

Originální název

Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder

Název česky

Generování vysoce kvalitních F0 vektorových reprezentací pomocí vektorově kvantizovaného variačního autoenkodéru

Autoři

PORTEŠ, David a Aleš HORÁK

Vydání

Cham, Text, Speech, and Dialogue, od s. 139-148, 10 s. 2024

Nakladatel

Springer Nature Switzerland

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

paměťový nosič (CD, DVD, flash disk)

Impakt faktor

Impact factor: 0.402 v roce 2005

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/24:00136935

Organizační jednotka

Fakulta informatiky

ISBN

978-3-031-70565-6

ISSN

EID Scopus

Klíčová slova česky

Základní frekvence; Prozódie; Vektorově kvantizovaný variační autoenkodér; Vektorové reprezentace

Klíčová slova anglicky

Fundamental Frequency; Prosody; VQ-VAE; Vector Embeddings

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 4. 4. 2025 12:09, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Language models operating on discrete audio representa- tions are increasingly becoming the go-to framework for many speech- processing tasks. Recently, discrete embeddings of the fundamental fre- AQ1 quency (F0), have been shown to improve performance across a variety of tasks. However, the benefits of using F0 embeddings can only be as good as the embeddings themselves. Therefore, in this paper, we present an exhaustive study on using the Vector-Quantized Variational Autoencoder (VQ-VAE) to generate high-quality embeddings of the F0 curve. We experiment with various input transformations that focus on handling unvoiced regions of the F0, which are regions where F0 is not defined. For each transformation, we perform an exhaustive grid search over the embedding size and codebook size parameters, in order to achieve high- est possible embedding quality. Our experiments are conducted on two different-sized datasets, LJSpeech and LibriTTS, and, in total, comprise over 140 different experiment settings. We reach results ranging from 0.53% to 4.29% F0 Frame Error (FFE), depending on the dataset and preprocessing strategy used, and we publish our best models on the Hug- gingFace website.

Česky

Jazykové modely fungující na diskrétních audio reprezentacích se stále více stávají oblíbeným rámcem pro mnoho úloh zpracování řeči. Nedávno bylo prokázáno, že diskrétní vektorové reprezentace základní frekvence (F0) zlepšují výkon napříč různými úlohami. Avšak výhody použití F0 vektorových reprezentací jsou omezené kvalitou samotných reprezentací. Proto v tomto článku představujeme důkladnou studii, která se zaměřuje na použití vektorově kvantizovaného variačního autoenkodéru (VQ-VAE) ke generování vysoce kvalitních reprezentací křivky F0. Experimentujeme s různými vstupními transformacemi, které se soustředí na zpracování neznělých oblastí F0, což jsou oblasti, kde F0 není definována. Pro každou transformaci provádíme důkladné vyhledávání optimální velikosti reprezentací a velikosti kódující knihovny, abychom dosáhli co nejvyšší kvality reprezentací. Naše experimenty jsou prováděny na dvou datových sadách různé velikosti, LJSpeech a LibriTTS, a celkem zahrnují více než 140 různých experimentálních nastavení. Dosahujeme výsledků v rozmezí od 0,53 % do 4,29 % chybovosti v metrice FFE, v závislosti na použité datové sadě a strategii předzpracování, a naše nejlepší modely publikujeme na webu HuggingFace.

Návaznosti

MUNI/A/1590/2023, interní kód MU
Název: Využití technik umělé inteligence pro zpracování dat, komplexní analýzy a vizualizaci rozsáhlých dat
Investor: Masarykova univerzita, Využití technik umělé inteligence pro zpracování dat, komplexní analýzy a vizualizaci rozsáhlých dat