PA153 Počítačové zpracování přirozeného jazyka

Fakulta informatiky
podzim 2023
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (pomocník)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Po 12:00–13:50 A318
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Předmět nabízí seznámení s počítačovým zpracováním přirozeného jazyka pomocí statistických algoritmů i neuronových sítí hlubokého učení. Jednotlivé přístupy jsou ilustrovány na funkčních příkladech či aplikacích.
Výstupy z učení
Studenti získají znalosti o praktickém zpracování textů.
Student bude po absolvování předmětu schopen:
- porozumět metodám zpracování textů;
- navrhnout algoritmy na klasifikaci textů, dokumentů, vět;
- porozumět struktuře systémů odpovídání na otázky a strojového překladu;
- vyhodnotit kvalitu aplikací zpracování přirozeného jazyka.
Osnova
  • zpracování textu, tokenizace, korpusy
  • četnosti slov, n-gramy, jazykové modelování
  • klasifikace textů
  • extrakce informací
  • morfologické a syntaktické značkování
  • získávání informací, odpovídání na otázky
  • paralelní texty, zarovnávání slov, strojový překlad
  • reprezentace ve spojitých prostorech
  • rekurentní neuronové sítě pro jazykové modelování
  • zpracování sekvencí, transformery
  • neuronový strojový překlad
  • generování přirozeného jazyka, obrovské jazykové modely
Literatura
    doporučená literatura
  • GOODFELLOW, Ian, Yoshua BENGIO a Aaron COURVILLE. Deep learning. London, England: MIT Press, 2016, xxii, 775. ISBN 9780262035613. info
  • JURAFSKY, Dan a James H. MARTIN. Speech and language processing : an introduction to natural language processing, computational linguistics and speech recognition. 2nd ed. New Jersey: Pearson, 2009, 1024 s. ISBN 9780135041963. info
Výukové metody
Výuka probíhá formou přednášek a seminářů, v nichž se kombinuje ústní projev učitele s použitím slidů a ukázek relevantních softwarových nástrojů. Studenti vypracovávají dobrovolné domácí úkoly nebo menší projekty. Na vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.
Metody hodnocení
Na závěrečnou písemnou zkoušku je možné získat 50 bodů. K úspěšnému zvládnutí je potřeba dosáhnout alespoň 25 bodů. Až 25 bodů je možné získat za řešení domácích úkolů či projektů.
Vyučovací jazyk
Angličtina
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2004, podzim 2005, podzim 2006, podzim 2007, podzim 2008, podzim 2009, podzim 2010, podzim 2011, podzim 2012, podzim 2013, podzim 2014, podzim 2015, podzim 2016, podzim 2017, podzim 2018, podzim 2019, podzim 2020, podzim 2021, podzim 2022, podzim 2024.