P030 Textové informační systémy

Fakulta informatiky
jaro 2001
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. Ing. Jan Staudek, CSc.
Katedra počítačových systémů a komunikací – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Po 10:00–11:50 A107
  • Rozvrh seminárních/paralelních skupin:
P030/01: Po 12:00–13:50 B204, P. Sojka
P030/02: Po 14:00–15:50 B204, P. Sojka
Předpoklady
I005 FJA I
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Osnova
  • Základní pojmy informačních systémů.
  • Klasifikace informačních systémů.
  • Vyhledávací systémy. Vyhledávací algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickov\'e, Commentz-Walterov\'e.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Příklad architektury vyhledávacího systému na WWW -- Google.
  • Metody indexování, konstrukce tezauru. Datové struktury pro vyhledávání.
  • Vyhledávací metody s předzpracováním textu a vzorků -- signaturové metody.
  • Jazyky pro vyhledávání a modely dokument\r{u} -- boolovsk\'y, vektorov\'y, MMM, Paice\r{u}v, pravd\v{e}podobnostní, shluk\r{u}.
  • Komprese dat, základní pojmy.
  • Statistické metody komprese dat.
  • Slovníkové metody komprese dat. Komprese textů s použitím neuronových sítí.
  • Syntaktické metody. Kontextové modelování.
  • Kontrola správnosti textu. Filtrace informačních zdrojů. Klasifikace dokumentů.
Literatura
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • WITTEN, Ian H., Alistair MOFFAT a Timothy C. BELL. Managing gigabytes :compressing and indexing documents and images. New York: Van Nostrand Reinhold, 1994, xiv, 429 s. ISBN 0-442-01863-0. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
Metody hodnocení
Výuka probíhá klasickým zpusobem a je zakončena písemným testem (příklady testů z předchozích let jsou vystaveny na URL předmětu). Na cvičeních dochází k procvičování látky z přednášek a zpracování týmového projektu.
Informace učitele
http://www.fi.muni.cz/~sojka/tis/
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích léto 1996, léto 1997, léto 1998, jaro 1999, jaro 2000, jaro 2002.