PA153 Počítačové zpracování přirozeného jazyka

Fakulta informatiky
podzim 2008
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Rozvrh
Čt 14:00–15:50 B411
Předpoklady
Logické programování I Logická analýza přirozeného jazyka I a II
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 22 mateřských oborů, zobrazit
Cíle předmětu
Předmět nabízí seznámení s počítačovým zpracováním přirozeného jazyka na jednotlivých rovinách: morfologické, syntaktické, sémantické a pragmatické. Na každé rovině se probírají teoretická východiska a používané algoritmické popisy a nástroje a také jejich organizace do složitějších systémů.
Studenti získají znalosti o jednotlivých rovinách analýzy jazyka - morfologické, syntaktické, sémantické a pragmatické.
Zvládnou problematiku jazykových dat - korpusů, korpusových nástrojů, značkování korpusových textů, budou se orientovat v otázkách disambiguace s použitím pravidlových a statistických systémů.
Studenti se seznámí representací morfologických stuktur, notací a algoritmy morfologické analýzy.
Budou schopni pracovat s representacemi syntaktických struktur, formálními gramatikami a jejich typy. Seznámí se s gramatikami - nekontextovými, funkcionálními, vymezených formulí (definite-clause) a s algoritmy syntaktické analýzy.
Budou probrány datové struktury jako valenční slovesné rámce a jejich typy.
Osvojí si problematiku sémantické representace. Bude probrána lexikální sémantika - významy slov a slovních spojení (kolokací), elektronické slovníky, lexikální databáze (WordNet,EuroWordNet, thesaury).
Budou charakterizovány základní principy sémantické analýzy věty na bázi logické sémantiky včetně Normálního translačního algoritmu.
Studenti získají základní představu o problematice pragmatiky.
Pozornost bude věnována analýze promluvy a její segmentaci, dále anafoře a koreferenci.
Prezentovány budou dialogové systémy.
Dále pak problematika inference a reprezentace znalostí pro systémy zpracování přirozeného jazyka.
Studenti získají základní informace o komunikačních agentech a evaluačních technikác
Osnova
  • Počítačové zpracování přirozeného jazyka a počítačová lingvistika.
  • Počítačové porozumění přirozenému jazyku.
  • Roviny analýzy jazyka - morfologie, syntax, sémantika.
  • Jazyková data - textové korpusy. Typy korpusů. Korpusové nástroje. Značkování korpusových textů. Disambiguace, pravidlové a statistické systémy.
  • Representace morfologických struktur, notace, morfologické algoritmy.
  • Representace syntaktických struktur - formální gramatiky a jejich typy. Nekontextové, funkční, DC (definite-clause) gramatiky. Algoritmy syntaktické analýzy. Valenční rámce a jejich typy.
  • Sémantická representace. Lexikální významy - slova a kolokace, elektronické slovníky, lexikální databáze (WordNet, EuroWordNet, thesaury).
  • Semantická analýza věty, Normální translační algoritmus.
  • Pragmatika.
  • Analýza promluvy a její segmentace. Anafora a koreference.
  • Dialogové systémy.
  • Inference a reprezentace znalosti pro NL systémy.
  • Komunikační agenti.
  • Evaluační techniky.
Literatura
  • ALLEN, James. Natural language understanding. 2nd ed. Redwood City: Benjamin/Cummings Publishing Company, 1995, xv, 654 s. ISBN 0-8053-0334-0. info
  • CHOMSKY, Noam. Syntaktické struktury. gramatické pravidlo. Praha: Academia, 1966, 209 s. URL info
Metody hodnocení
ústní zkouška; psaný test
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2004, podzim 2005, podzim 2006, podzim 2007, podzim 2009, podzim 2010, podzim 2011, podzim 2012, podzim 2013, podzim 2014, podzim 2015, podzim 2016, podzim 2017, podzim 2018, podzim 2019, podzim 2020, podzim 2021, podzim 2022, podzim 2023, podzim 2024.