PA154 Jazykové modelování

Fakulta informatiky
jaro 2024
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučováno prezenčně.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (pomocník)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Út 12:00–13:50 C416
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 51 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Výstupy z učení
Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
Osnova
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Vyučovací jazyk
Angličtina
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2023
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučováno prezenčně.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Čt 16. 2. až Čt 11. 5. Čt 14:00–15:50 C511
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 51 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Výstupy z učení
Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
Osnova
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Vyučovací jazyk
Angličtina
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2022
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučováno prezenčně.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Čt 17. 2. až Čt 12. 5. Čt 12:00–13:50 C416
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 51 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Výstupy z učení
Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
Osnova
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Vyučovací jazyk
Angličtina
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2023, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2021
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučováno online.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Út 10:00–11:50 Virtuální místnost
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 51 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Výstupy z učení
Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
Osnova
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2022, jaro 2023, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2020
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Po 17. 2. až Pá 15. 5. Po 12:00–13:50 A218
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 51 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Výstupy z učení
Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
Osnova
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2019
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
St 10:00–11:50 C525
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 19 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Výstupy z učení
Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
Osnova
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2018
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Po 14:00–15:50 B411
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 19 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Výstupy z učení
Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
Osnova
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2017
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Čt 14:00–15:50 C525
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 19 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů.
Osnova
  • Sada nástrojů NLTK
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2016
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Po 10:00–11:50 C416
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 19 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů.
Osnova
  • Sada nástrojů NLTK
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Jazykové modelování

Fakulta informatiky
jaro 2015
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
St 8:00–9:50 C416
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 18 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů.
Osnova
  • Sada nástrojů NLTK
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Statistické nástroje pro korpusy

Fakulta informatiky
jaro 2014
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
St 10:00–11:50 G125
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 18 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů.
Osnova
  • Sada nástrojů NLTK
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2013
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
RNDr. Vít Suchomel, Ph.D. (pomocník)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Út 8:00–9:50 B411
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 25 mateřských oborů, zobrazit
Cíle předmětu
Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů.
Osnova
  • Sada nástrojů NLTK
  • Základy pravděpodobnosti a informační teorie
  • Jazykové modelování, Noisy Channel Model
  • Vyhlazování, algoritmus Expectation-Maximization
  • Markovovy modely, Skryté Markovovy modely (HMMs)
  • Viterbiho algoritmus
  • Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
  • Statistické zarovnávání a strojový překlad
  • Kategorizace a shlukování textu
  • Grafické modely
  • Paralelizace, MapReduce
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • MANNING, Christopher D. a Hinrich SCHÜTZE. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999, xxxvii, 68. ISBN 0-262-13360-1. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2012
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky
Rozvrh
Čt 14:00–15:50 G124
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 25 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2011
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Rozvrh
Čt 10:00–11:50 C511
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 24 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2010
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Rozvrh
Út 13:00–14:50 B313
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 24 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Výukové metody
přednáška
Metody hodnocení
Písemná zkouška.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2009
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Rozvrh
Út 15:00–16:50 B410
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 21 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Metody hodnocení
Přednášky, písemná zkouška.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2008
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Rozvrh
Čt 8:00–9:50 B410
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 21 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2007
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Rozvrh
St 18:00–19:50 B411
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 9 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2006
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Rozvrh
Čt 10:00–11:50 B411
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 9 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2005
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Rozvrh
Út 18:00–19:50 B411
Omezení zápisu do předmětu
Předmět je určen pouze studentům mateřských oborů.
Mateřské obory/plány
předmět má 9 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2004
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Rozvrh
Út 18:00–19:50 B204
Omezení zápisu do předmětu
Předmět je určen pouze studentům mateřských oborů.
Mateřské obory/plány
předmět má 8 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.

PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2003
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Rozvrh
Út 10:00–11:50 B204
Omezení zápisu do předmětu
Předmět je určen pouze studentům mateřských oborů.
Mateřské obory/plány
předmět má 8 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000, 531 s. ISBN 80-7184-893-X. info
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024.