PLIN057 Strojové zpracování textu

Filozofická fakulta
jaro 2018
Rozsah
0/2/0. 4 kr. Ukončení: z.
Vyučující
Mgr. et Mgr. Ondřej Mrázek, Ph.D. (přednášející)
Garance
doc. PhDr. Zdeňka Hladká, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Rozvrh
Po 10:50–12:25 G13
Předpoklady
Žádné.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Mateřské obory/plány
předmět má 10 mateřských oborů, zobrazit
Cíle předmětu
Často je i na humanitních oborech důležité umět transformovat textová data do strukturované podoby, tato dovednost umožňuje provádět analýzy textu, zjišťování informací z textu, a stává se tak vstupem pro další bádání, a to bez ohledu na sémantiku textu.
Cílem kurzu je naučit studenty základní možnosti zpracování textových informací pomocí vybraných počítačových nástrojů. Sekundárním cílem je pak naučit studenty vnímat text také jako datový typ zbavený významu, vyrovnat se s různým kódováním textu a s jeho přenositelností mezi různými operačními systémy.
Předmět je určen především pro studenty, kteří nemají s touto problematikou žádné zkušenosti.
Tempo výkladu a obsah budou uzpůsobeny tempu studentů. Pochopení a procvičení učební látky bude upřednostněno před její kvantitou.
Výstupy z učení
Po absolvování kurzu bude student seznámen s problematikou zpracování textu a bude umět texty:
  • prohledávat
  • transformovat do jiné podoby
  • porovnávat mezi sebou
  • sestavovat ze získaných informací jednoduché databáze.

    Podrobněji:
  • regulární výrazy a jejich implementace
  • základní práce v linuxovém terminálu
  • UNIXové textové nástroje (grep, sort, uniq, cut aj.)
  • UNIXové textové editory (nano, sed, vim).

    Podle schopností a zájmu studentů také:
  • základy skriptování v Bashi
  • základní zpracování textu v jazyce Python.
  • Osnova
    • seznámení s průběhem semestru
    • regulární výrazy a jejich použití
    • seznámení s UNIXovým terminálem
    • správa toku dat (vstup, výstup, přesměrování)
    • cat, tac, head, tail, wc,
    • grep, sort, uniq, cut
    • comm, diff, join, paste, csplit
    • tr, nano, sed
    • vim
    • základy skriptování v Bashi
    • procvičování
    • práce s textem v jazyce Python
    Literatura
      doporučená literatura
    • Manuálové stránky jednotlivých utilit.
    • BRANDEJS, Michal. UNIX - Linux : praktický průvodce. 1. vyd. Praha: Grada. 340 s. ISBN 8071691704. 1996. info
    Výukové metody
    výuka, procvičování, diskuse
    Metody hodnocení
    Zápočet bude udělen za docházku, aktivní účast a splnění zápočtového testu.
    Další komentáře
    Studijní materiály
    Předmět je zařazen také v obdobích jaro 2019, podzim 2022, podzim 2023, podzim 2024.