I047 Úvod do korpusové lingvistiky a počítačové lexikografie

Fakulta informatiky
jaro 1999
Rozsah
2/0. 2 kr. Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Osnova
  • Úvod do korpusové lingvistiky a počítačové lexikografie
  • Informační technologie a jazykové korpusy.
  • Vznik korpusové lingvistiky a k čemu jsou korpusy.
  • Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Sběr dat pro korpusy a reprezentativnost korpusů. Údržba korpusů.
  • Korpusové nástroje -- manažery. Korpusový administrátor (CQP, CUE). Programy pro tvorbu konkordancí (KWIC) -- OCP, LEXA, WORDCRUNCHER, PAT. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Konverzní programy mezi různými kódy. Funkce typu flex pro práci s morfémy. Práce s atributy a značkami (tagy).
  • Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA). Syntaktické značkování na úrovni větných struktur -- treebanks, skeletonová analýza. Paralelní korpusy.
  • Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení. Aplikace v oblasti teorie komunikace. Budování slovníků.
  • Počítačová lexikografie.
  • Co je to lexikografie a lexikologie.
  • Způsoby popisu významů slov (sémantické komponenty).
  • Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu, GENELEX. Terminologické. Thesaury.
  • Data pro tvorbu slovníků -- korpusy.
  • Softwarové nástroje pro lexikografy. Lexikografické stanice (LEXA, COMPULEXIS aj.). Značkovače. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
  • Lexikografické standardy v rámci EU.
  • Možné experimenty s tvorbou lexikografického software.
Informace učitele
V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
Další komentáře
Předmět je vyučován každoročně.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích léto 1996, léto 1997, léto 1998, jaro 2000, jaro 2001, jaro 2002.