PLIN057 Strojové zpracování textu

Filozofická fakulta
podzim 2026
Rozsah
0/2/0. 4 kr. Ukončení: zk.
Vyučující
prof. Radek Čech, Ph.D. (přednášející)
Mgr. Vlasta Ohlídalová (přednášející)
Mgr. Hana Žižková, Ph.D. (přednášející)
Garance
prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Bc. Silvie Hulewicz, DiS.
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Předpoklady
Předmět je určen pro studenty s alespoň základní znalostí programování v jazyce Python.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Jiné omezení: Předmět není vhodný pro studenty prvního ročníku. Je nutná základní znalost programování v jazyce Python.
Mateřské obory/plány
předmět má 12 mateřských oborů, zobrazit
Anotace
V rámci předmětu si studenti osvojí základní dovednosti nutné pro automatické zpracování textu v programu Python. Naučí se zpracovat text, získat z něj potřebné informace (zejména frekvenční charakteristiky) a provést základní morfologickou a syntaktickou anotaci pomocí externích nástrojů. 


Předmět je určen pro studenty s alespoň základní znalostí programování v jazyce Python. 

Výstupy z učení
Po absolvování kurzu bude student seznámen s problematikou zpracování textu a bude umět:
  • prohledávat a zpracovávat texty
  • vytvářet frekvenční slovníky
  • analyzovat je s ohledem na jejich lexikální diverzitu (slovní bohatství)
  • používat regulární výrazy
  • vizualizovat vlastnosti textu
  • provádět morfologickou a syntaktickou anotaci pomocí externích nástrojů
  • Klíčová témata
    • Načtení textu, tokenizace, vytvoření slovníku, frekvenčního seznamu, relativní frekvence, uspořádané slovníky, stop list, vytvoření frekvenčního seznamu autosémantik.
    • Vyhledávání konkrétních slov a jejich frekvence.
    • Regulární výrazy.
    • Lexikální diverzita: TTR, TTR ze segmentu/segmentů textu, MATTR, proporce hapaxů legomenon, entropie.
    • Délka slova: průměr, medián, modus, SD, distribuce délek, vizualizace (barplot, boxplot)
    • UDPipe a Stanza - automatická anotace dat a základy zpracování vertikálu.
    • Vyhledávání podle 2 a více atributů.
    Studijní zdroje a literatura
      doporučená literatura
    • Manuálové stránky jednotlivých utilit.
    Přístupy, postupy a metody používané ve výuce
    výuka, procvičování, diskuse
    Způsob ověření výstupů z učení a požadavky na ukončení
    Předmět je ukončen zkouškou, podmínkou je též průběžné vypracovávání zadaných úkolů.
    Další komentáře
    Předmět je vyučován každoročně.
    Výuka probíhá každý týden.
    Předmět je zařazen také v obdobích jaro 2018, jaro 2019, podzim 2022, podzim 2023, podzim 2025.