FI:IB047 Úvod do korpus. lingvistiky - Informace o předmětu
IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2010
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející) - Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc. - Rozvrh
- Čt 16:00–17:50 B204
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 24 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty: ;
- se základy korpusové lingvistiky a počítačové lexikografie;
- s typy korpusů podle účelů, k nimž jsou určeny;
- s technikami budování korpusů z webu;
- s nástroji pro práci s korpusy, zejména korpusovými manažery;
- korpusový manažer Manatee/Bonito a jeho vazby na další nástroje;
- s technikami zpracování korpusových dat, tj. s různými typy nástrojů pro značkování (morfologické, syntaktické, sémantické);
- s nástroji pro desambiguaci - pravidlovými, statistickými;
- se zpracováním kontextů a nástroji, které to umožňují - Word Sketch Engine;
- s tvořením sémantických shluků a thesaurů;
Dále se studenti naučí pracovat: ;
- s korpusovými daty v rámci počítačové lexikografie;
- s principy tvorby elektronických slovníků;
- s nástroji pro budování elektronických slovníků a práci s nimi;
- platforma DEB II, Visdic, DebVisDic;
- experimentálně s vlastními vzorky korpusů; - Osnova
- Informační technologie a jazykové korpusy;
- Počátky korpusové lingvistiky, význam korpusů;
- Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES;
- Anotované korpusy a značkování;
- Základní úroveň značkování -- metastruktura textu;
- Gramatické značkování na úrovni slovních druhů;
- Syntaktické značkování na úrovni větných struktur;
- Paralelní korpusy a jejich využití;
- Nástroje pro automatické a poloautomatické značkování, desambiguace;
- Budování korpusů z webu, údržba korpusů;
- Programy pro tvorbu konkordancí;
- Korpusové nástroje: korpusový manažer Manatee/Bonito aj.;
- Statistické parametry (absolutní, relativní četnosti, MI, T-score);
- Práce s atributy a značkami (tagy);
- Využití korpusů a korpusových dat;
- Ukázky práce s korpusem -- ČNK, SUSANNE, Pražský závislostní korpus;
- Zpracování kontextů a kolokací (slovních spojení);
- Nástroj pro práci s kontexty - Word Sketch Engine;
- Počítačová lexikografie;
- Typy elektronických slovníků;
- Nástroje pro počítačovou lexikografii - platforma DEB II;
- Lexikografické stanice;
- Literatura
- SAMPSON, Geoffrey. English for the computer : the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995, ix, 499. ISBN 0198240236. info
- RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000, xiv, 128. info
- Computational lexicography for natural language processing. Edited by Ted Briscoe - Bran Boguraev. London: Longman, 1989, xiv, 310 p. ISBN 0-470-21187-3. info
- SAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001, viii, 226. ISBN 0-8264-4883-6. info
- Corpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996, xi, 245 s. ISBN 0-262-02392-X. info
- Výukové metody
- přednášky
- Metody hodnocení
- písemná zkouška
- Navazující předměty
- Další komentáře
- Předmět je vyučován každoročně.
- Statistika zápisu (jaro 2010, nejnovější)
- Permalink: https://is.muni.cz/predmet/fi/jaro2010/IB047