PV030 Textual Information Systems

Fakulta informatiky
jaro 2008
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
St 8:00–9:50 C511, St 14:00–14:50 C525, St 14:00–14:50 B311
Předpoklady
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 nebo IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 37 mateřských oborů, zobrazit
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Metody indexování, konstrukce tezauru.
  • Architektura vyhledávacího systému na Internetu -- Google.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Filtrace a indexování informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Vyučovací jazyk
Angličtina
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.