Přechod na menu, Přechod na obsah, Přechod na patičku

Kapitola 6 Akustická a auditivní fonetika

Akustická a auditivní fonetika zaměřuje svou pozornost na výsledný signál lidské řeči bez ohledu na artikulační mechanismy, jimiž byl vytvořen. Předmětem zkoumání se akustická fonetika blíží fyziologické akustice, odvětví fyziky zabývajícímu se otázkami lidského hlasu, problémy slyšení zvuků a akustice jako součásti fyziky. Auditivní využívá i poznatků o fyziologii sluchového ústrojí a poznatků neurologických. Akustická fonetika studuje výsledný zvuk bez zření k jeho vzniku, při řešení konkrétních otázek se však mohou pohledy doplňovat.

Pohled akustické fonetiky je soustředěn na studium autentického, nezobecněného signálu lidské řeči, který je objektivními fyzikálními metodami a pomocí experimentu zkoumán a popisován v celé složitosti. Toto odvětví výzkumu se velmi rozvíjí v posledních desetiletích dík rozvoji fyzikálních metod analýzy zvuku a dík nebývalým možnostem vyhodnocovat zjištěné údaje pomocí počítače a verifikovat výsledky analýz pomocí modelů. Výsledky jsou pak využívány nejen pro hlubší poznání lidské řeči, ale mají také praktické využití v nejrůznějších oblastech komunikace mezi člověkem a strojem (hlasové vstupy, hlasové výstupy, počítačové programy schopné "číst" srozumitelně nahlas jakýkoli psaný text apod.) nebo usnadňují komunikaci mezi lidmi. Akustická analýza umožní také identifikaci mluvčího a má pak využití mj. v kriminalistice. Možnosti akustických zkoumání a jejich uvádění do praxe nejsou ani zdaleka vyčerpány.

Na základě poznání akustiky řeči byla vybudována poměrně exaktní terminologie popisující jednotlivé hlásky i prozodické prostředky řeči. Pracuje s ní hlavně literatura oboru a šířeji speciální fonetická literatura, zatímco lingvistika věrna tradicím dává přednost terminologii artikulačně-auditivní.

Auditivní pohled na lidskou řeč je mnohem starší: je založen na analýze a hodnocení řeči sluchem. Není ani zdaleka tak přesný jako pohled akustický, protože lidské ucho má omezenou možnost vnímání (srov. i 6.6), a není ani možno jej dokonale objektivizovat, protože je do jisté míry poznamenán subjektem člověka, který výzkum provádí. Na druhé straně je vzhledem k roli řeči v komunikaci daleko adekvátnější než studium akustiky, protože přirozenou cestou umožní zachytit a zhodnotit ty zvukové prostředky řeči, které jsou percipovatelné, a tedy v řeči důležité.

V současnosti můžeme konstatovat, že akustická zkoumání podstatně upřesnila poznatky, k nimž filologové došli auditivní cestou, umožnila interpretovat souvislosti, které zůstávaly skryty, a celkově posunula obor na daleko exaktnější úroveň, než byla tradiční cestou možné. Na druhé straně sluchové hodnocení, ovšem připravené do podoby testů a co nejobjektivněji zpracované, zůstává první orientací ve zvukovém materiálu a je součástí verifikace poznatků experimentálních.

Auditivní fonetika je paralelou fonetiky artikulační (5), zjednodušeně můžeme říci, že určité znění, přesněji znění, které ucho vnímá jako "obvyklé", vzniká vždy jedním a týmž mechanismem tvoření. Výjimky v této zjednodušené souvislosti existují a jsou dobře známy, mj. i logopedům, pro lingvistiku jsou však nevýznamné. Důsledkem paralelnosti je však pro lingvistiku skutečnost, že vedle termínů postihujících artikulaci jednotlivých hlásek je tu i tradiční terminologie založená na jejich auditivním hodnocení. A navíc, autoři užívají obě terminologické soustavy promiskue. Je proto nutno i soubor termínů, na který dále upozorníme, ovládat.

Poznámka

Zvukový signál řeči je vnímán posluchačem také opticky. Okrajově si těchto složek všímá artikulační fonetika, detailněji se stává optický signál artikulace důležitý pro neslyšící, ale také např. při dabingu.

Ve vizuálním kontaktu mezi mluvčím a posluchačem je zvukový signál provázen signály kinetickými, mimikou, gesty, postojem apod. Mnozí mluvčí tak provázejí i ostatní mluvené projevy (při telefonování, při samomluvě). Tyto signály, významně usnadňující a modifikující komunikaci, analyzuje např. psychologie a sémiotika.

Nositelkou akustického signálu řeči je zvuková vlna, jejíž podstatou jsou podélné kmity molekul vzduchu.

Podnět pro toto kmitání je dán mluvními orgány. V zásadě existuje vztah mezi typem artikulace a vzniklým zvukem, v některých případech však vznikají akusticky velmi blízké (a sluchem neodlišované) zvuky různým způsobem artikulace (např. výslovnost souhlásky [l] horní plochou špičky jazyka a [l] vyslovované retroflexně), a naopak někdy i nevelká obměna tvoření má pro posluchače patrné akustické důsledky (rozdíl mezi spojením [t]+[s] a [ʦ] (=„c“) je v češtině dobře slyšitelný – srovnej vyslovené přece – před sebe ([t] + [s]).

Fonetik zabývající se akustickou fonetikou užívá přirozeně příslušné fyzikální terminologie. Pro běžné výklady kurzu pro lingvisty vystačíme s několika základními termíny; jejich definice a složitý matematický aparát s nimi spojený ponecháme exaktním vědám.

Výška zvuku je dána u jednoduchého tónu kmitočtem jeho zdroje, u složeného tónu interferencí výšek tónů částkových. Udává se v hertzích (značka Hz) : kmitočet rovný 1 Hz má takový periodický děj, jehož 1 (dvoj)kmit trvá 1 sekundu.

Intenzita zvuku je dána velikostí akustického výkonu, jenž projde určitou plochou kolmou na směr šíření zvuku. V běžném životě se mezi akustickým výkonem a intenzitou nerozlišuje: mluvíme o síle hluku, hudby apod. a vyjadřujeme ji v decibelech (dB), desetinách základní jednotky akustického výkonu, jíž je bel.

Pro subjektivní vnímání, při němž se sluchový dojem opírá jak o výšku, tak o sílu zvuku, se čistě fyzikální jednotky nehodí, pracuje se se speciální jednotkou fón. Jeden fón je u čistého tónu s frekvencí 1 kHz při intenzitě 1 dB.

Hlasitost zvuku je sluchovým odhadem poměru síly hodnoceného zvuku a síly referenčního zvuku s hladinou hlasitosti 40 fónů. Je mírou subjektivně posuzované intenzity zvuku a její jednotkou je son.

Barva zvuku řeči vzniká interferencí výšek a intenzit všech tónových a šumových složek.

Kvantita, trvání v čase.

Zvuky dělíme podle průběhu zvukových vln na pravidelné a nepravidelné. Pravidelné (periodické) označujeme jako tóny, nepravidelný průběh mají šumy. Nejjednodušší periodické zvuky jsou jednoduché tóny, běžnější jsou však tóny složené. Mnohé zvuky v přírodě jsou kombinací tónové a šumové složky. I v lidské řeči se uplatňují tóny (samohlásky), zvuky kombinující tónovou a šumovou složku (např. [l], [r] nebo – jinak složené – znělé souhlásky) a čisté šumy (neznělé souhlásky).

Chceme-li sledovat průběh zvukové vlny v počítači, musíme ji digitalizovat. Digitalizace je proces, při kterém se původní analogový signál (v našem případě vzniklý tlakem vzduchu v určitém místě) převede na nějakou číslicovou reprezentaci.

Poznámka

Představme si tedy člověka, který mluví do mikrofonu. Proud vzduchu, který tento člověk vytváří, vychyluje čidlo v mikrofonu z jeho základní polohy. Mikrofon vysílá (stále ještě v analogové podobě) tuto výchylku do zvukové karty počítače. Zvuková karta v pravidelných intervalech (např. 22050krát za sekundu) zjistí hodnotu výchylky a převede ji na číslo v intervalu např. 0-255. 0 odpovídá maximální výchylce směrem dolů, 127 klidové hodnotě jazýčku a 255 maximální výchylce směrem nahoru. Tato čísla se potom dají zobrazit graficky jako posloupnost bodů v rovině (viz obrázek). Osa x odpovídá časové ose, osa y akustické intenzitě.

Žádné z výše uvedených čísel není natolik magické, jak by se mohlo na první pohled zdát. Frekvence 22050 Hz se používá pro záznam řeči proto, že zvuk vzorkovaný na této frekvenci dokáže spolehlivě zachytit i nejvyšší frekvence, které člověk při mluvení vytváří (zhruba 6kHz, hlavně u sykavek). Je samozřejmě možné vzorkovat i na jiných frekvencích, typicky se používají např. 12 kHz a 16 kHz. Pro záznam hudby v CD kvalitě, kde je potřeba vyšší rozlišení, se používá frekvence 44,1 kHz.

Klasifikace polohy jazýčku pomocí jedné z 256 hodnot se používá z ryze praktických důvodů. Čísla 0-255 jsou právě ta čísla, která se dají vyjádřit pomocí 8 bitů, neboli jednoho bytu, což je základní jednotka uložení informací v počítači. V dnešní době se vzhledem k rostoucímu výkonu počítačů používá spíše šestnáctibitové kódování, které je daleko přesnější popisuje polohu jazýčku pomocí čísla v intervalu -32768 – +32767.

Obrázek 6.1 Tón o frekvenci 100 Hz, tón o frekvenci 200 Hz a jejich složení

[audioklip]
+
[audioklip]
=
[audioklip]

Obrázek 6.2 Tón o frekvenci 100 Hz, šum a jejich složení.

[audioklip]
+
[audioklip]
=
[audioklip]

Složené tóny lidské řeči vznikají jednak interferencí pulzů kmitů tělesa, které je zdrojem zvuku (vedle pružného tělesa kmitajícího jako celek vznikají periodické kmity jeho jednotlivých částí – důsledkem jsou tzv. tóny harmonické), jednak tím, že se základní tón doplňuje při průchodu prostředím rezonancí, tj. vynucenými změnami kmitání částic vzduchu v částečně uzavřených prostorech – rezonátorech; v těchto rezonátorech dochází buď k doplnění tónu, nebo k zesílení existujících svrchních harmonických tónů, tedy ke skutečné rezonanci, nebo jsou naopak existující svrchní tóny utlumeny : tento jev se nazývá antirezonance. Vyšší neharmonické složky lidského hlasu vznikající při artikulaci řeči rezonancí dutiny hrdelní, ústní a nosní se nazývají formanty hlásek.

Složený tón lze analyzovat harmonickou analýzou na jednotlivé složky. Starší způsob analýzy založený na matematických vztazích mezi interferujícími tóny a výsledným složeným tónem dnes nahradila analýza pomocí přístrojů. Je rychlá, kvalitní, umožňuje tedy analyzovat všechny přechodové zvuky v časovém průběhu a na základě zjištění také jejich stavbu a sled napodobit.

Obrázek 6.3 Zvukový záznam slova vál a jeho spektrogram

resources/vAl_07.gif
resources/vAl_14.gif
resources/vAl_30.gif
[audioklip]

Spektra ("plátky" spektrogramu) v časech 7, 14 a 30 ms. Značky v původním obrázku ukazují místa, ze kterých byly plátky vyříznuty.

Akustická struktura lidské řeči je velmi složitá a je dosud prozkoumána jen z části. Při popisu vydělujeme obvykle jednotlivé řečové zvuky ze souvislého proudu. V něm jedna složka plynule navazuje na druhou, vzájemně se ovlivňují a pozměňují, a to někdy do té míry, že se charakteristické vlastnosti jen vzdáleně podobají témuž typu zvuku v jiném hláskovém okolí. Proto jsou akustické popisy jednotlivých hlásek zobecněním (podobně jako popisy artikulační).

Výsledky studia přechodových zvuků, dnes velmi rozvinutého a důležitého i pro syntézu řeči, se zatím do popisu akustické struktury řeči zařazují také v zobecněné formě. Zvuk řeči je v celém průběhu významně ovlivňován i modulací celku promluvy (intonací, silou řeči apod.); o těchto vlastnostech se pojednává dále.

Obrázek 6.4 Samohláska í ve slovech kývá a dívá

[audioklip]
[audioklip]

Základem zvuku lidské řeči je u mnoha hlásek hlas vytvářející se činností hlasivek. Jeho výška je individuálně proměnlivá: hlasové rozpětí se běžně pohybuje v 1-1,5 oktávy při řeči, při zpěvu se (dík vrozeným dispozicím i hlasové výchově) výrazně zvětšuje (2-4,5 oktávy). Výška mluvního hlasu u mužů se uvádí kolem 120 Hz, u žen 220 Hz, děti mají obvykle hlas vyšší. Při zpěvu však může výška dostoupit až 1000 Hz. U souhlásek neznělých, kde se hlasivky na tvorbě řeči nepodílejí, je akustická charakteristika založena na šumu různé výšky a typu, ve znělých souhláskách se na jejich akustické struktuře podílí šum i tón, vokály jsou hlásky tónové.

Výška a síla hlasu jsou společně prostředkem vyjádření intonace (blíže 7.2).

Obrázek 6.5 Průběh intonace ve větě "Budu tam v pět".

[audioklip]
[audioklip]

6.1 Typy hlásek z akustického a auditivního hlediska

Z akustického hlediska je nejvhodnější rozdělit hlásky na:

  1. Hlásky s volným vyzněním hlasu doplněným rezonancemi – vokály (vocoidy, samohlásky). Artikulačně jde o hlásky založené na apertuře. Do této skupiny patří běžně jak monoftongy, tak složitější polyftongy.

  2. Hlásky, jejichž zvukový obraz je založen na šumu (samostatném nebo doplněném i složkou tónovou) – konsonanty (contoidy, souhlásky). Artikulačně jde o hlásky, v jejichž tvoření je uplatňuje striktura.

    Početná skupina konsonantů není z akustického hlediska stejnorodá, podle vztahu mezi hlasovou a šumovou složkou je lze dále dělit na:

    1. Hlásky klouzavé (glide), jež nemají plně rozvinutou tónovou složku, ale chybí jim i výraznější složka šumová. Tyto hlásky mají poměrně nejblíže k vokálům, v některých jazycích se dokonce v jednotlivých slovech se skutečným vokálem střídají. Artikulačně jde o aproximanty, tj. [j] a [ʋ].

      V lingvistice se o nich mluví také jako o semivokálech, polovokálech

    2. Sonory – hlásky s poměrně větším podílem tónové složky, ale obsahující i složku šumovou; na jejich akustickém obrazu se vedle hlasu podílí i rezonance: dělí se na likvidy (souhlásky plynné, [l], [r], u nichž tónovou složku vytváří rezonance v ústech), a nazály, kde je doplňující rezonance nosní (např. [m], [n]). Blízkost těchto souhlásek, zvláště likvid, k vokálům ukazuje jejich schopnost fungovat v některých jazycích jako jádro slabiky (tak i v češtině – např. jednoslabičná slova vlk, prst).

      Označení "sonora", "likvida" jsou typickým termínem založeným na sluchovém dojmu, užívají se však i tam, kde se preferuje pojmenovaní na základě artikulace nebo akustiky.

      V terminologii není jednota – někdy se pod „sonory“ řadí i aproximanty/glide.

    3. Vlastní konsonanty (konsonanty šumové, obstruenty) mají zřetelnou složku neperiodických kmitů (šumů). Částečně tónovou složku mají z této skupiny konsonanty znělé – tvoří ji znění základního hlasu), konsonanty neznělé jsou čistými šumy.

      Znělost se nazývá v mezinárodní terminologii sonorita („tónovost“), tón je však přítomen i u sonor a vokálů. Proto se termínu sonorita, sonorant (hláska se sonoritou) raději vyhýbáme.

Jak je vidět, tradiční dělení na samohlásky a souhlásky vyhovuje jen pro základní orientaci v jazykovém materiálu, ale akustickou složku řeči (stejně jako artikulační) postihuje nedostatečně. Členění zvuků řeči z akustického i artikulačního hlediska je přitom paralelní.

Starší, auditivní fonetika si byla rozdílů mezi typy konsonantů dobře vědoma. Termíny sonora, likvida, nazála jsou velmi staré, poslední desetiletí přinesla jen termín glide (tomu odpovídá i fakt, že je odvozen z angličtiny); o specifiku konsonantů j nebo [ʋ] = ‘v‘ však věděli už lingvisté 19. století.

Obrázek 6.6 Vrcholové fáze samohlásek a a i ve slabikách sas a sis.

[audioklip]
[audioklip]

Obrázek 6.7 Průběh prvních dvou formantů týchž samohlásek.

[audioklip]
[audioklip]

Obrázek 6.8 Likvidy l a r.

[audioklip]
[audioklip]

Obrázek 6.9 Aproximanta j a nazála ň.

[audioklip]
[audioklip]

Obrázek 6.10 Nazály m a n.

[audioklip]
[audioklip]

Obrázek 6.11 Souhlásky d a h.

[audioklip]
[audioklip]

Obrázek 6.12 Souhlásky t a ch.

[audioklip]
[audioklip]