CJBB43 Úvod do korpusové lingvistiky I

Filozofická fakulta
podzim 2000
Rozsah
2/0/0. 3 kr. Ukončení: k.
Vyučující
doc. PhDr. Klára Osolsobě, Dr. (přednášející)
Garance
doc. PhDr. Klára Osolsobě, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
1. Informační technologie a jazykové korpusy. 2. Vznik korpusové lingvistiky a k čemu jsou korpusy. 3. Budování korpusů, korpusová data - typy korpusů a standardizace, SGML, TEI - sběr dat pro korpusy a reprezentativnost korpusů - údržba korpusů - příklady - Britský národní korpus, Český národní korpus (ČNK) 4. Korpusové nástroje - manažery - korpusový administrátor (CQP, CUE) - programy pro tvorbu konkordancí (KWIC) - OCP, LEXA, WORDCRUNCHER, PAT - využití regulárních výrazů - statistické programy (absolutní, relativní četnosti, M/I, T-score) - třídicí programy pro konkordance - konverzní programy mezi různými kódy - práce s atributy a značkami (tagy) 5. Anotované korpusy a značkování - základní úroveň značkování - metastruktura textu - SGML - gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA) - syntaktické značkování na úrovni větných struktur - treebanks, skeletonová analýza - paralelní korpusy 6. Využití korpusů a korpusových dat - ukázky práce s korpusem - ČNK - studium kolokací a slovních spojení - aplikace v oblasti teorie komunikace - budování slovníků.
Osnova
  • 1. Informační technologie a jazykové korpusy. 2. Vznik korpusové lingvistiky a k čemu jsou korpusy. 3. Budování korpusů, korpusová data - typy korpusů a standardizace, SGML, TEI - sběr dat pro korpusy a reprezentativnost korpusů - údržba korpusů - příklady - Britský národní korpus, Český národní korpus (ČNK) 4. Korpusové nástroje - manažery - korpusový administrátor (CQP, CUE) - programy pro tvorbu konkordancí (KWIC) - OCP, LEXA, WORDCRUNCHER, PAT - využití regulárních výrazů - statistické programy (absolutní, relativní četnosti, M/I, T-score) - třídicí programy pro konkordance - konverzní programy mezi různými kódy - práce s atributy a značkami (tagy) 5. Anotované korpusy a značkování - základní úroveň značkování - metastruktura textu - SGML - gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA) - syntaktické značkování na úrovni větných struktur - treebanks, skeletonová analýza - paralelní korpusy 6. Využití korpusů a korpusových dat - ukázky práce s korpusem - ČNK - studium kolokací a slovních spojení - aplikace v oblasti teorie komunikace - budování slovníků.
Literatura
  • CHRIST, O., The XKWIC User Manual. Universität Stuttgart. Institut für maschinelle Sprachverarbeitung - Computerlinguistik. Stuttgart 1995.
  • Manuál lexikografie. Edited by František Čermák - Renata Blatná. 1. vyd. Jinočany: H & H, 1995, 283 s. ISBN 80-85787-23-7. info
  • ŠULC, Michal. Korpusová lingvistika : první vstup. 1. vyd. Praha: Karolinum, 1999, 94 s. ISBN 8071848476. info
  • Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3-4. 1997.
Metody hodnocení
Podmínkou pro udělení kolokvia je znalost probrané látky.
Navazující předměty
Další komentáře
Předmět je dovoleno ukončit i mimo zkouškové období.
Výuka probíhá každý týden.
Na přednášku navazuje v dalším semestru Úvod do korpusové lingvistiky II (CJBB23).
Předmět je zařazen také v obdobích podzim 1998, podzim 1999, podzim 2001.