1. Uveďte definici korpusu v moderním terminologickém slova smyslu (čím se liší korpus od
   „sbírky textů“)                                    6 b.

   Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu
   mluvy), který slouží k jazykovému výzkumu. Od sbírky textů se liší tím, že je složen ze vzorků
   (samples), které jsou vybrány podle předem stanovených kriterií tak, aby reprezentovaly jazyk.
   Korpus je rozsahově i obsahově vymezen a omezen, je uložen v elektronické podobě a obsahuje
   standardní reference. Tato kriteria sbírka textů splňovat nemusí.

   2. Co znamenají zkratky
                                                                           4 b.

   NLP Natural Language Processing                                                      

   MRF Machine Readable Dictionary

   OCR Optical Character Recognition

   SGML (XML) Standard Generalized Mark-up Language (eXtensible Mark-up Language)

   3. Jaký je rozdíl mezi kognitivně plausibilním a kognitivně neplausibilním systémem?

   Kognitivně plausibilní systém usiluje o vytvoření poznávacího (kognitivního) modelu, pro nějž
   je relevantní, jakým způsobem člověk řeší nějaký úkol pomocí inteligence, a používá jej jako
   bázi pro stroj, který má tento problém (úkol) inteligentně řešit. Takový systém často používá 
   úplnou sadu pravidel, které explicitně formulují znalosti, které člověk implicitně používá, ve
   formě tzv. báze znalostí (knowledge base). Naopak systémy, které rezignují na kognitivní
   plausibilitu a jsou tedy kognitivně neplausibilní, se prostě snaží vytvořit model
   inteligentního chování, aniž by se přihlíželo k tomu, zda systém pracuje stejným způsobem jako
   člověk (inteligentně). Tyto systémy často používají surová kvantitativní data k vytvoření
   statistického modelu napodobujícího lidské chování.

   4. Uveďte v bodech obecné zásady vytyčené G. Leechem, podle nichž mají být vytvářeny značky
   (nejméně 3, má jich být 7)                                                   7 b.

   zachovat vratnost anotovaného korpusu do surového stavu (autor značek je interpretem, s nímž
   nemusí každý potenciální uživatel souhlasit, přičemž by mělo být technicky možné se případné
   nežádoucí interpretace zbavit a moci pracovat bez ní)

   možnost extrahovat anotace z textu a uložit je zvlášť, aby bylo možné se k nim vrátit (formou
   nějaké relační databáze, nebo interlineárního formátu)

   Anotační schéma by mělo vycházet z teoretických východisek,  která by měla být jasně
   formulovaná a přístupná každému konečnému uživateli korpusu. Mnohé korpusy byly anotovány
   ručně (existence subjektivních interpretací zaviněných osobou anotátora ve sporných
   případech). Značkování by pak mělo být doplněno komentáři, z nichž by byl důvod příslušné
   volby patrný.

   Mělo by být jasné JAK a KDO anotaci provedl (JAK – ročně x automaticky x poloautomaticky,
   s postkorekcí x bez korekce) (KDO – počítačový program, anotátor - člověk)

   Uživatel korpusu by si měl být vědom toho, že anotace nejsou nějakou nedotknutelnou neomylnou
   instancí. Anotace je pouze více či méně užitečným nástrojem. INTERPRETACE.

   Anotační schéma by mělo být založeno na široce schvalovaných a teoreticky nezatížených
   principech. Není na škodu i zjednodušující přístup.

   Žádné anotační schéma nemá právo být pokládáno za standardní. Je-li nějaké řešení uznávanější,
   děje se tak pouze z praktických důvodů.

   

   5. Co je to korpusový manažer?                                                            3 b.

   KORPUSOVÝ MANAŽER  je program, umožňující efektivně pracovat s počítačovým korpusem, tj.
   vyhledávat podle zadatelných kriterií (slovní tvar, značka, lemma) ve formě KWIC, vyhledané
   informace třídit a statisticky zpracovávat, vytvářet subkorpusy, ukládat získané informaci,
   využívat standardních statistických metod pro vyhledávání kolokací atd.

   6. Co je to značkovací jazyk?                                                                4
   b.

   Značkovací jazyk je jakýkoli jazyk, který vkládá do textu značky vysvětlující význam nebo
   vzhled jednotlivých jeho částí. Vzhledové značky se původně používaly jen pro formátování
   textu v nakladatelstvích - dodnes se používá formátovcí jazyk TeX (formátování knih do tisku).
   Dalšími jazyky jsou troff, PDF, ...

   Pro potřeby KL se používal jazyk SGML,  dnes XML.

   7. Co znamená zkratka TEI ?                                                                 4
   b.

   Text encoding initiative. Jedná se o aktivitu sponzorovanou hlavními vědecky orientovanými
   asociacemi  zabývajícími se využitím komputerů v humanitních vědách. ACL (Association for
   Computional Linguistics), ALLC  (the Association for Literary and Linguistic Computing), ACH
   (the Association for Computers and Humanities). Cílem TEI je vytvoření standardní implementace
   pro operace s počítačově čitelnými texty.  TEI za tímto účelem používá již existující formu
   SGML (Standard Generalised Markup  Language). Byl přijat proto, že je jednoduchý, jasný,
   formálně přísný a již mezinárodně uznávaný. Vlastním příspěvkem TEI je detailní návod
   k použití přísl. standardu.

   8. Jaké jsou výhody anotovaných korpusů?                                         4 b.

   Anotovaný korpus přináší lingvistické interpretace na různých úrovních. Využitelnost těchto
   interpretací je dvojí. Jednak pro výzkum jazyka (vytěžování korpusů lingvisty). Jednak pro
   aplikace NLP – budování modelů jazyka na základě dat získaných z korpusů.

   9. Jaký je rozdíl mezi stochastickou disambiguací morfologicky označkovaného korpusu a
   disambiguací řízenou pravidly?              6 b.

   Stochastická metoda spočívá v tvorbě tzv. trénovacích dat (část korpusu se ručně disambiguuje
   tak, aby všem automaticky označkovaným tvarům byla přiřazena jedna jediná správná značka),
   poté se statistický program „naučí“ na „trénovacím korpusu, tj. „učiní si jakousi představu“ o
   pravděpodobnostech přechodu mezi jednotlivými značkami a o jejich četnostech, kterou si uloží
   do vnitřních tabulek, a pak „aplikuje“ tyto znalosti při další disambiguaci již
   nedisambiguovaného korpusu.

   Podstatou disambiguace řízené pravidly je intuitivní formulace řady dílčích pravidel opřených
   o znalosti syntaktických konfigurací v PJ. Přístup je kognitivně plausibilní.

   10. K čemu může sloužit kvantitativní analýza dat získaných z velkých jazykových
   korpusů?                                                            4 b.

   NLP: stochastická disambiguace, automatická analýza založená na statistických metodách.

   Frekvenční seznamy, výzkum kolokací - lexikografie.

   

   CELKEM BODŮ:

   Maximálně : 48

   PROSPĚL: 48-32

   NEPROSPĚL: 32 a méně