P110 Corpus Linguistic and Computational Lexicography

Fakulta informatiky
jaro 2000
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
Dr. Patrick Hanks (přednášející)
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 15 stud.
Momentální stav registrace a zápisu: zapsáno: 0/15, pouze zareg.: 0/15, pouze zareg. s předností (mateřské obory): 0/15
Mateřské obory/plány
Osnova
  • Building a corpus. Design criteria; obtaining permissions; spoken and written texts; size; type and token; Zipf's law; sampling (representativeness);contrasting genres; a monitor corpus.
  • Monolingual dictionary structure. Headwords and subentries; pronunciation transcription; word class and grammar; structure of definitions; example sentences; pragmatics and function words; word origins and word histories; usage notes.
  • Why build a corpus? Language performance and language competence; the problem of introspection; patterns of linguistic behaviour; metaphor and other aspects of language creativity; discourse structure; anaphora; register.
  • Preparing a corpus for use [with Karel Pala]. Indexing; tagging; lemmatization; concordancing programs; sorting the matches; displaying the wider context; identifying source texts.
  • Characteristics of natural language. Cognitive and syntactic prototypes; phraseological norms; ``possible'' vs. ``normal''; probability and certainty; variability; typicality; statistical significance; analytic delicacy.
  • Using the corpus. Parsing and chunking; lexical statistics; collocates; sorting and classifying; linking word use to word meaning.
  • Naturalness. Syntactic well-formedness and textual well-formedness; cohesion; given and new; idiomaticity; neutrality. & Bilingual dictionary structure. Target language and metalanguage; wordclass; domain indicators; glosses; phraseology.
  • Using corpora in language comparisons. Parallel corpora and comparable corpora; sentence alignment; lexical gaps; terminology.
Informace učitele
Přednáška a veškerá komunikace s ní spojená bude probíhat v angličtině.
Výuka se bude konat v týdnu od 19. do 23.4.1999, cca 3 až 4 hodiny dopoledne přednáška, odpoledne 2 hodiny cvičení.
The course is designed both to raise theoretical issues about the nature of language and to give a practical introduction to the analysis of lexis.
A conversational knowledge of English is assumed.
Další komentáře
Předmět je vyučován každoročně.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 1999, jaro 2001, jaro 2002.