FF:PLIN057 Strojové zpracování textu - Informace o předmětu
PLIN057 Strojové zpracování textu
Filozofická fakultapodzim 2026
- Rozsah
- 0/2/0. 4 kr. Ukončení: zk.
- Vyučující
- prof. Radek Čech, Ph.D. (přednášející)
Mgr. Vlasta Ohlídalová (přednášející)
Mgr. Hana Žižková, Ph.D. (přednášející) - Garance
- prof. Radek Čech, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Bc. Silvie Hulewicz, DiS.
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta - Předpoklady
- Předmět je určen pro studenty s alespoň základní znalostí programování v jazyce Python.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Jiné omezení: Předmět není vhodný pro studenty prvního ročníku. Je nutná základní znalost programování v jazyce Python. - Mateřské obory/plány
- předmět má 12 mateřských oborů, zobrazit
- Anotace
- V rámci předmětu si studenti osvojí základní dovednosti nutné pro automatické zpracování textu v programu Python. Naučí se zpracovat text, získat z něj potřebné informace (zejména frekvenční charakteristiky) a provést základní morfologickou a syntaktickou anotaci pomocí externích nástrojů.
Předmět je určen pro studenty s alespoň základní znalostí programování v jazyce Python.
- Výstupy z učení
- Po absolvování kurzu bude student seznámen s problematikou zpracování textu a bude umět:
- prohledávat a zpracovávat texty
- vytvářet frekvenční slovníky
- analyzovat je s ohledem na jejich lexikální diverzitu (slovní bohatství)
- používat regulární výrazy
- vizualizovat vlastnosti textu
- provádět morfologickou a syntaktickou anotaci pomocí externích nástrojů
- Klíčová témata
- Načtení textu, tokenizace, vytvoření slovníku, frekvenčního seznamu, relativní frekvence, uspořádané slovníky, stop list, vytvoření frekvenčního seznamu autosémantik.
- Vyhledávání konkrétních slov a jejich frekvence.
- Regulární výrazy.
- Lexikální diverzita: TTR, TTR ze segmentu/segmentů textu, MATTR, proporce hapaxů legomenon, entropie.
- Délka slova: průměr, medián, modus, SD, distribuce délek, vizualizace (barplot, boxplot)
- UDPipe a Stanza - automatická anotace dat a základy zpracování vertikálu.
- Vyhledávání podle 2 a více atributů.
- Studijní zdroje a literatura
- doporučená literatura
- Manuálové stránky jednotlivých utilit.
- Přístupy, postupy a metody používané ve výuce
- výuka, procvičování, diskuse
- Způsob ověření výstupů z učení a požadavky na ukončení
- Předmět je ukončen zkouškou, podmínkou je též průběžné vypracovávání zadaných úkolů.
- Další komentáře
- Předmět je vyučován každoročně.
Výuka probíhá každý týden.
- Statistika zápisu (podzim 2026, nejnovější)
- Permalink: https://is.muni.cz/predmet/phil/podzim2026/PLIN057