PV158 Zpracování řečových signálů

Fakulta informatiky
podzim 2004
Rozsah
2/1. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. Dr. Ing. Jan Černocký (přednášející), doc. RNDr. Ivan Kopeček, CSc. (zástupce)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Ivan Kopeček, CSc.
Rozvrh
Čt 8:00–9:50 B204, Čt 10:00–10:50 B116
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 18 mateřských oborů, zobrazit
Cíle předmětu
Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM,
Osnova
  • Informační obsah psané a mluvené formy řeči.
  • Techniky zpracování používané ve zpracování řeči.
  • Fourierova transformace, z-transformace, lineární filtrace.
  • Chování lineárních systémů v časové a frekvenční oblasti.
  • Signálový model tvorby řeči: buzení a filtr.
  • Určení parametrů pomocí lineární predikce.
  • LPC koeficienty a odvozené parametry (PARCOR, LAR, ...)
  • Analýza řeči pomocí krátkodobé Fourierovy transformace (STFT): interpretace jako banka filtrů, výpočet pomocí rychlé Fourierovy transformace (FFT).
  • Kepstrální analýza.
  • Parametrisace s perceptuálně upravenou frekvenční osou.
  • Určování základního tónu.
  • Příznaky pro zpracování řeči, kritéria jejich výběru.
  • Měření podobnosti mezi řečovými rámci.
  • Kódování řeči: kódování tvaru vlny a parametrické kodéry.
  • Modelování buzení. Fonetické vokodéry.
  • Rozpoznávání řeči: Skryté Markovovy modely (HMM).
  • Rozšíření HMM pro rozpoznávání souvislé řeči.
  • Statistické jazykové modely.
  • Probrané metody jsou experimentálně procvičeny v počítačových laboratořích (Matlab).
Literatura
  • PSUTKA, Josef. Komunikace s počítačem mluvenou řečí. Praha: Academia, 1995, 287 s. ISBN 8020002030. info
  • RABINER, Lawrence R. a Biing-Hwang JUANG. Fundamentals of speech recognition. Englewood Cliffs: Prentice Hall PTR, 1993, xxxv, 507. ISBN 0-13-015157-2. info
Metody hodnocení
Výuka: týdně 2h přednáška, 1x 14 dní 2h počítačových cvičení Matlab.
Podmínky pro ukončení kursu: zápočet - úspěšně absolvovaný test v posledním počítačovém cvičení, kolokvium - úspěšně absolvovaný test v posledním počítačovém cvičení A odevzdaný a presentovaný domácí projekt, zkouška - úspěšně absolvovaný test v posledním počítačovém cvičení A odevzdaný a presentovaný domácí projekt A písemná zkouška.
test v počítačovém cvičení - několik jednoduchých příkladů v Matlabu, k disposici libovolné poznámky, literatura, všechny vytvořené funkce. Max. 20 bodů ke zkoušce.
domácí projekt - na výběr z témat na http://www.fit.vutbr.cz/~cernocky/speech/projekty.html registrace během celého semestru, krátká písemná zpráva (4 strany A4), může být i ručně psaná, ústní presentace (10 min.) na poslední přednášce. Max. 20 bodů ke zkoušce.
písemná zkouška - k disposici veškerá literatura a výpočtní technika, . 2 hodiny, 5 teoretických otázek, 5 početních příkladů, po 6 bodech. Max. 60 bodů.
Hodnocení v případě ukončení zkouškou: celkem 100 bodů: 0-39 bodů: 4, 40-59 bodů: 3, 60-79 bodů: 2, 80-100 bodů: 1
Informace učitele
http://www.fit.vutbr.cz/~cernocky/speech
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2005, jaro 2007, jaro 2008.