Vokály jsou hlásky s tónovou strukturou. Jejich tón je složený, vedle laryngálního hlasu se na nich podílejí i rezonance vzniklé v nadhrtanových dutinách (a další svrchní tóny). Diferenciace vokálů vychází z toho, že u každé samohlásky jde o jinou kombinaci rezonancí, které vedou k soustředění zvukové energie v jistých tónových pásmech; každý vokál má tedy jinou strukturu a jiný vzájemný poměr tónových složek. Složený tón jednotlivých vokálů je pak nápadně odlišný.

Laryngální hlas je pro všechny vokály stejný (kromě „němých“ v některých jazycích, které znění hlasu nemají), k diferenciaci dochází při průchodu hlasu rezonančním prostorem tvořeným hrdlem a ústní dutinou zakončenou rty, popřípadě dutinou nosní. Délka a šíře hlavního rezonátoru je do určité míry proměnlivá. Jde totiž o zahnutou trubici, kterou postavení jazyka dělí na dva "subrezonátory", na rezonátor "hrdelní" a "ústní", jejichž velikost se mění i pohybem čelistí.

Vzhledem k tomu, že pro mnohé vokály se zvuk modifikuje i v prostoru mezi rty, mluví někteří autoři i o rezonátoru „retním“; má to smysl hlavně pro jazyky, kde existuje rozdíl labializované a nelabializované samohlásky se stejnou pozicí jazyka (např. v němčině – zaokrouhlené a nezaokrouhlené [i] × [y] = „ü“.

Rezonátory se musejí podílet na výslovnosti každého vokálu. V některých jazycích se navíc může uplatnit jako rezonátor i dutina nosní. Pohybem jazyka se mění vzájemný poměr rezonátorů; ve výsledném znění se odrážejí i proměny výstupního otvoru rezonátorů dané postavením rtů.

V této složité rezonanční soustavě dochází ke vzniku formantů, typických pásem zesílení zvukové energie. Pro vytvoření a identifikaci vokálů jsou nutné nejméně dva formanty, samohlásky lidské řeči jich však mají více (uvádí se až 6 formantů, k nim přibývají i další – svrchní tóny). Při hlasité řeči se připojuje formant laryngálního hlasu, který je "budičem charakteristiky" formantů ostatních.


Vztah mezi laryngálním hlasem a formantovou strukturou vokálů vysvětluje několik teorií. Jako nejpřesvědčivější se jeví pulzační teorie Hermannova. Zvukové vlny vzniklé činností hlasivek podle ní rozechvívají sloupec vzduchu v hrdelní a ústní dutině. Tím vznikají oba základní formanty. Sloupce vzduchu v ústech a hrdle mají u jednotlivce přibližně stálý poměr pro každou samohlásku, formanty mají proto ustálený charakter.

Základní tón řeči se naproti tomu může obměňovat (např. při zpěvu). Proto lze i ve zpívaném textu rozeznávat jednotlivé samohlásky. Při extrémně vysokých polohách však může dojít u vokálů ke zkreslení. Při šeptaných samohláskách laryngální hlas chybí. Přesto mají i tyto samohlásky formantovou strukturu a jsou dobře poznatelné. Jako "budič charakteristiky" se u nich uplatňuje prostý výdechový proud doplněný šumem vzniklým při průchodu vzduchu mezi částečně sblíženými hlasivkami.

Výška formantů je pro jednotlivé vokály v daném jazyce omezena na jistá frekvenční pásma, nejde tedy o jediný tón. Tradiční fonetika označovala jednotlivé formanty podle předpokládaného místa vzniku termíny odvozenými z artikulační fonetiky: mluvilo se pak o formantu ústním, hrdelním.

Dnes se dává přednost označení číslicemi vycházejícími z výšky formantů, jak ji zachycují objektivní metody analýzy zvuku řeči. Formant základního hlasu má označení F0, nejbližší vyšší F1, další F2 atd. Např. v češtině se F1 (podle Hály, 1962) pohybuje v rozmezí 300 Hz [] - 800 Hz [], F2 700 Hz [] - 200 Hz []; čísla jsou průměrná, skutečné realizace se pohybují v širokém rozmezí kolem těchto výšek. (V literatuře se někdy uvádí i zápis F0, F1, F2…)

Formanty jednotlivých vokálů jsou navzájem odlišeny. Zřetelně se liší rezonance vznikající v ústní dutině, rezonance vznikající v dutině hrdelní jsou odlišeny méně. Pro identifikaci vokálů však jsou důležité nikoli absolutní hodnoty formantů, nýbrž vzájemný poměr F1 a F2: pro vokály, které hodnotíme jako i-ové, je to např. velký výškový rozdíl mezi oběma formanty, a-ové zvuky mají oba formanty blízko sebe a jsou umístěny přibližně ve středu výškového pásma, u-ové vokály mají oba formanty nízké atd. Na základě toho hodnotíme i uměle vytvořené složené tónové zvuky jako podobné tomu či onomu vokálu. Kombinace neodpovídající modelu formantové struktury vokálů známého jazyka sice označíme také za samohlásku, ale nejsme s to ji identifikovat; podobné potíže můžeme mít při identifikaci zvláštních typů vokálů jazyka cizího.

V některých jazycích (polštině, francouzštině) se uplatňuje i nosní rezonátor. Akustická struktura těchto vokálů se tím pochopitelně mění. Jak ukázaly analýzy v polštině, nedochází však k připojení „nosního formantu“, nosní prostor je zřejmě zdrojem antirezonance.

Důležitou složkou akustiky vokálů je jejich časový průběh. Objektivně zjistitelná kvantita je jevem fonetickým. Měření ukázala, že skutečná délka vokálu závisí na jeho typu (vysoké vokály bývají v průměru kratší) a na pozici ve fonické řadě. Údaje o fyzikálně zjištěném trvání hlásek nejsou zcela přesné, jinak vyzní vokál např. v zavřené a otevřené slabice, i když je oba můžeme sluchově vnímat jako „krátké“.

V mnoha jazycích se délka vokálu mění také v závislosti na přízvuku (v ruštině). Trvání vokálu se pozměňuje při emfázi - má móře peněz, vokál se může zkracovat v delších slovech nebo při rychlejší řeči apod.Tyto objektivní vlastnosti mají pro rozlišování významu jen malý smysl : nutné je pouze zachovat minimální trvání hlásky (zkrácení pro tento limit způsobí, že vokál nelze identifikovat) a trvání „maximální“ - nadměrně prodloužený zvuk již neinterpretujeme jako hlásku, ale jako výkřik, povzdech apod. Pro odlišení významových jednotek se v jazycích jako je čeština využívá relativní kvantita, tj. poměr mezi krátkým a dlouhým vokálem takřka stejné formantové struktury.

Formantová struktura vokálu je typická pouze v jeho vrcholové fázi, v místech napojení k sousedním konsonantům se modifikuje. V přirozeně vyslovované řeči jsou tyto přechody tak samozřejmé, že je ani nevnímáme. Patří do celkového obrazu konkrétního jazyka.

Jinak je tomu při akustické analýze, kde je možno sledovat složení zvuku v kterémkoli vybraném momentu. Pro vazbu mezi segmenty svědčí to, že přeneseme-li (technicky) realizaci vokálu do jiného hláskového okolí, přirozeným sluchem vnímáme neobvyklost, nesprávnost výsledku. Srov. i 6.3.
 
Technická spolupráce:
Servisní středisko pro e-learning na MU, 2008
Stránky střediska na Elportále