FI:IB047 Úvod do korpus. lingvistiky - Informace o předmětu
IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2025
- Rozsah
- 2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučováno kontaktně - Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (pomocník) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 40 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty: ;
- se základy korpusové lingvistiky a počítačové lexikografie;
- s typy korpusů podle účelů, k nimž jsou určeny;
- s technikami budování korpusů z webu;
- s nástroji pro práci s korpusy, zejména korpusovými manažery;
- s technikami zpracování korpusových dat, tj. s různými typy nástrojů pro značkování (morfologické, syntaktické, sémantické);
- se zpracováním kontextů a nástroji, které to umožňují - Sketch Engine;
Dále se studenti naučí pracovat: ;
- s korpusovými daty v rámci počítačové lexikografie;
- s principy tvorby elektronických slovníků;
- s nástroji pro budování elektronických slovníků a práci s nimi; - Výstupy z učení
- Student bude po absolvování předmětu schopen: vybrat vhodný typ korpusu pro zvolené účely; interpretovat jednotlivé vrstvy anotace korpusů; použít statistické metody na textových korpusech; navrhnout strukturu slovníku; využít volně dostupných nástrojů pro vytváření slovníků.
- Osnova
- Informační technologie a jazykové korpusy;
- Počátky korpusové lingvistiky, význam korpusů;
- Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES;
- Anotované korpusy a značkování;
- Základní úroveň značkování -- metastruktura textu;
- Gramatické značkování na úrovni slovních druhů;
- Syntaktické značkování na úrovni větných struktur;
- Paralelní korpusy a jejich využití;
- Nástroje pro automatické a poloautomatické značkování, desambiguace;
- Budování korpusů z webu, údržba korpusů;
- Programy pro tvorbu konkordancí;
- Korpusové nástroje: korpusový manažer Manatee/Bonito aj.;
- Statistické parametry (absolutní, relativní četnosti, MI, T-score);
- Práce s atributy a značkami (tagy);
- Využití korpusů a korpusových dat;
- Zpracování kontextů a kolokací (slovních spojení);
- Nástroj pro práci s kontexty - Sketch Engine;
- Počítačová lexikografie;
- Typy elektronických slovníků;
- Nástroje pro počítačovou lexikografii - platforma DEB II;
- Lexikografické stanice;
- Literatura
- doporučená literatura
- ATKINS, B. T. S. a Michael RUNDELL. The Oxford guide to practical lexicography. 1st pub. Oxford: Oxford University Press, 2008, xii, 540. ISBN 9780199277704. info
- neurčeno
- Practical lexicography : a reader. Edited by Thierry Fontenelle. New York: Oxford University Press, 2008, vii, 405. ISBN 9780199292349. info
- SAMPSON, Geoffrey. English for the computer : the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995, ix, 499. ISBN 0198240236. info
- RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
- SAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001, viii, 226. ISBN 0-8264-4883-6. info
- Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
- Výukové metody
- přednášky
- Metody hodnocení
- písemná zkouška
- Navazující předměty
- Další komentáře
- Předmět je vyučován každoročně.
Výuka probíhá každý týden.
- Statistika zápisu (nejnovější)
- Permalink: https://is.muni.cz/predmet/fi/jaro2025/IB047