2025
Learning Optimal Prosody Embedding Codebook based on F0 and Energy
PORTEŠ, David a Aleš HORÁKZákladní údaje
Originální název
Learning Optimal Prosody Embedding Codebook based on F0 and Energy
Autoři
PORTEŠ, David a Aleš HORÁK
Vydání
Interspeech 2025. BAIXAS, INTERSPEECH 2025, od s. 4728-4732, 5 s. 2025
Nakladatel
ISCA-INT SPEECH COMMUNICATION ASSOC
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Označené pro přenos do RIV
Ano
Organizační jednotka
Fakulta informatiky
ISSN
UT WoS
EID Scopus
Klíčová slova anglicky
Prosody; VQ-VAE; Fundamental frequency; F0; Energy; Embeddings
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 1. 4. 2026 10:59, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
Both the Fundamental frequency (F0) and Energy are prominent features of prosody. Together, they have been used across a wide variety of speech-processing tasks. However, there is a lack of freely available pre-trained vector representations of these features. Therefore, in this paper, we provide the research community with high-quality joint embeddings of the frame-level F0 and Energy features, using the VQ-VAE architecture. By converting the F0 and Energy into a single stream of vector embeddings, we make it possible to seamlessly use prosody in modern architectures, such as multimodal LLMs. In order to ensure maximum embedding quality, we conduct a large-scale hyperparameter search, totaling over 150 experiments on the LibriTTS dataset. We outperform previous works on F0 embeddings, reaching FFE error below 1 percent, while simultaneously embedding the additional feature of Energy. We publish our best-performing models on the HuggingFace website.
Návaznosti
| MUNI/A/1638/2024, interní kód MU |
| ||
| MUNI/A/1666/2024, interní kód MU |
|