JAZYKOVÝ KORPUS: Prostředek a zdroj poznání v lingvistice 1. Pojem jazykového korpusu Jazykovým korpusem lze rozumět vnitřně strukturovaný, unifikovaný a obvykle i oindexovaný a ucelený rozsáhlý úhrn elektronicky uložených a zpracovávaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž pak je také považován za reprezentativní. Existence a smysl tvorby korpusu vycházejí především ze dvou základních teoretických předpokladů a jazykových faktů zároveň: (1) data nejrůznějšího druhu se v korpusu nacházejí ve své přirozené kontextové podobě a užití, které umožňuje jejich všestranné studium a indukci závěrů; (2) velký rozsah plánovitě vybudovaného korpusu minimalizuje to, že čistou náhodou - k níž u malých rozsahů dat dochází - převládnou zvláštní a okrajová užití jazykových jednotek nad základními a typickými. Vedle primárně sledované reprezentativnosti (viz 4.) korpusu v různém smyslu a míře (včetně škály typické/zvláštní/výjimečné) se u tvorby korpusu též obvykle zdůrazňuje i nutnost v něm zachytit variabilitu (viz 4.,5.) jazyka v různém smyslu. Někdy se zjednodušeně a synonymně také mluví o komputerovém korpusu, pojímaném prostě jako velký soubor počítačově čitelných textů, ale to může zavádět. Žádný komputerový korpus není jen prostým a tedy třeba i náhodným souborem textů, a vždy tedy jde o korpus jazykový ve smyslu uvedeném výše (srov. mj. Aijmer et al., Johansson et al., Sinclair 1991, Souter et al., Svartvik 1992). Možnost správy hromadných jazykových dat a práce s nimi na počítači vedou ve svých důsledcích nejen k nesmírnému zrychlení a usnadnění lingvistovy práce, ale i k jejímu dotud nevídanému zkvalitnění. Data takto získaná, která lze průběžně snadno modernizovat a doplňovat, tak představují dnes absolutně nejbohatší a nejrealističtější zdroj poznání jazyka vůbec, který vysoko předčí všechny lingvistovy pracně budované kartotéky a archívy minulosti; proto také jazykový korpus je předpokladem ke skutečné revoluci v práci s jazykem a i proto se zcela právem o posledním desetiletí tohoto století mluví také jako o dekádě korpusové lingvistiky. Mluví-li se v přírodních a dalších vědách zcela samozřejmě o základním výzkumu, na který navazuje veškerý další výzkum a aplikace, pak v jazykovědě se právě takovým zdrojem a předpokladem základního výzkumu stává elektronický korpus. Docenění jeho prvotního významu vede pak i k pochopení toho, že jeho budoucí studium a široké využívání znamená skutečně novou epochu v lingvistice jak co do kvality a povahy dosahovaných výsledků, tak ovšem i podoby a povahy metodologie práce s ním; už na samotném začátku tu těsně spolupracují lingvisté s matematiky a odborníky v komputerové vědě a nové problémy a cíle, které se vynořují v průběhu práce, si vyžadují a budou vyžadovat zcela nové způsoby řešení a exaktnější metodologie, užité techniky a nástroje. Rostoucí význam tu nabývá lingvistické modelování a statistické metody, propojované do probabilitních modelů, ale i fuzzy logika apod. Lingvistika se právě až v této fázi stává i prakticky plně interdisciplinární a není pochyb o tom, že k dosavadním disciplinám, které tu spolupracují, brzy přistoupí i další, jako je psycholingvistika, sociolingvistika a neurolingvistika. První významné zužitkování neocenitelného a bezprecedentního bohatství informací uložených v korpusu se už promítlo do řady kvalitativně zcela nových slovníků některých jazyků, není však zdaleka jediné a do budoucnosti lze při využívání korpusových dat předpokládat závažnou a plodnou spolupráci mezi jazykovědou a všemi obory, které tak či onak s jazykem pracují (a to jsou téměř všechny), protože jazyk je nástrojem komunikace všech a jeho poznání a její zkvalitnění je také v zájmu všech; není v této perspektivě proto žádnou náhodou, že např. národní britský korpus sponzoruje britské ministerstvo průmyslu. Jazyk je však také odrazem kolektivního vědomí a kultury národa, resp. komunity jeho nositelů a v tomto ohledu jeho hlubší poznání může v lecčem přispět i oborům uměleckým, zvláště však literatuře. Na krátké historii korpusu je dobře vidět, jak může být těžké být doma prorokem a jak i takoví lingvisté jako N. Chomsky, dnes zabředlí do hlubin svého materiálově nezakotveného a bezbřehého mentalismu, nemusejí potřebu budoucnosti dobře odhadnout. Už v r. 1962 se s despektem vyjadřuje o jakékoli možnosti přínosu korpusu rozvoji jazykovědy a poznání jazyka (mluví o jeho pokřivenosti), který mohl být dán snad tehdy slabým stupněm rozvoje počítačů, který však zřejmě neopustil ani dnes; aspoň se sám dosud nikdy nepokusil o studium jazyka na dnes už nepřeberné materiálové nabídce dat. Ve stejné době výrazného nástupu generativní gramatiky se naopak jiní spíše potichu a skromně pouštějí do prvních pokusů o korpusový přístup ke studiu jazyka, protože si uvědomují, nakolik je dosavadní poznání a teoretizování mezerovité a mnohdy i podložené nedostatečnými daty; za skutečné pionýry tu lze považovat kolem r. 1960 R. Quirka v Londýně s jeho Survey of English Usage (z něhož mj. vyrostla dodnes zřejmě nejobjektivnější i největší mluvnice angličtiny) a Čecha H. Kučeru spolu s Američanem N. Francisem, kteří vytvářejí první elektronický korpus angličtiny (Brown Corpus), dodnes ceněný a široce známý, který se považuje v dané oblasti za klasický počin. Na rozdíl od dílčích nebo příležitostných užití korpusu jako zdroje dat pro určitý účel, rešerši či např. slovníkovou aplikaci, kdy se ke korpusu mohou obracet jak nejrůznější části lingvistiky vlastní, tak vědy a obory další, je však korpus i centrálním a trvalým objektem celé zvláštní disciplíny. Korpusová lingvistika je ta část lingvistiky, která systematicky pracuje s korpusem a jeho nástroji, resp. studuje zásady a praxi práce s ním s cílem lepšího poznání funkce a struktury jazyka, jaké až dosud nebylo možné. Je dnes nesporně hlavní složkou lingvistiky komputační, v jiném pohledu se však s ní značně překrývá. Rozdíl mezi obojí lingvistikou vyvstavá hlavně při zdůraznění metod (na rozdíl od zdrojů) a nástrojů: vedle aplikovaných výstupů (jako je# strojový překlad) se komputační lingvistika může zaměřovat jen na teoretické řešení otázek prostřednictvím komputerových programů a technik, avšak dříve nebo později k jejich ověřování a uplatnění na korpusu stejně přistupuje. 2. Korpusová data Je třeba lišit mezi povahou jazykových dat (data vnější a hrubá) ještě před jejich vstupem do korpusu a po jejich vstupu do něj (data vnitřní a strojově čitelná, resp. zpracovatelná). Zdrojem korpusových dat (vnějších) jsou obě manifestace jazyka, psaná i mluvená, resp. psané i mluvené texty, ne však zatím ve stejné míře, protože záznam mluveného jazyka a jeho převod do počítačově čitelné podoby (vlastní magnetofonová nahrávka a následný přepis) je dosud velmi nákladný (Crowdy); s ohledem na zlepšující se možnosti počítačového rozpoznávání mluvy a jejího přímého záznamu komputerem se však situace může dramaticky změnit. Dosavadní zdroje dat se podle dostupných prostředků člení v zásadě na tři druhy. Nejlevnější a nejsnadněji využitelná jsou data v podobě elektronické sazby textů, kterou dnes užívá už většina centrálních novin a časopisů a některá nakladatelství. Druhou možností, různě úspěšnou v souvislosti s mírou typografické náročnosti textu, je načítání textů, resp. jejich skenování do počítače pomocí scannerů; na rozdíl od snímání obrázků je snímání písma v jeho různorodosti a různé velikosti (jen typografických sad jsou stovky), a tedy i optické rozpoznávání znaků (OCR, Optical Character Recognition) spíše složitější a vyžaduje velmi výkonný a specializovaný software. Zvlášť složité texty, např. slovníkové, však přesto při tom vykazují mnoho chyb a vynucují si mnoho oprav (osvědčily se tu do jisté míry pouze klasický přístroj od firmy Kurzweiler, popř. i výkonný novější ProLector). Třetí možností je konečně manuální přepisování potřebných textů do počítače písařkou (prostřednictvím některého z běžných editorů). žádný z těchto způsobů tedy nevede k potřebným datům přímo a snadno, vždy je zapotřebí kontroly a oprav, většinou bohužel i odborných (nejjednodušší je paradoxně způsob třetí, který jazykového odborníka průběžně nepotřebuje), každý z nich však navíc vyžaduje řadu větších či menších programátorských a odborných zásahů v podobě preeditace či posteditace, různých konverzí, sjednocení aj. (viz 4, korpusová data interní), často v podobě zvláštních dalších programů. Ať už je elektronický text pořízen tím či oním způsobem (převádí se napřed většinou do neutrálního mezinárodního ASCII formátu), má pak v zásadě trvalou, neomezenou platnost a lze ho opakovaně využít při různých dalších příležitostech a to ho dělá zvlášť cenným. Doprovodnými faktory bývají i některé aspekty právní. Závažnou součástí sběru dat je jeho uvedení do souladu s copyrightem, autorskými právy patřícími vydavateli či vlastnímu autorovi. Pokud je pro účely korpusu, a tedy zpravidla jen pro účely nekomerční a výzkumné poskytnou, pak obvykle na základě právní smlouvy či úmluvy; ta může např. připouštět jen omezené přímé citace jednotlivých autorů apod. Případná pozdější komerčně využitelná aplikace pak musí jejich dodatečnou využitelnost, jakkoliv obvykle jen nepřímou, řešit však právně zvlášť. V případě mluveného korpusu je často potřeba respektovat případné přání mluvčích zachovat jejich anonymitu apod. 3. Typy korpusů a standardizace Každý soubor textů v počítači však ještě korpusem není. Od vlastního korpusu (srov. vymezení v 1.) je třeba především lišit volné kolekce textů, popř. elektronickou knihovnu ("textotéku") a souhrnný elektronický archiv, jakým je např. známý Text Archive Oxfordské university. Takovýto archiv je, podobně jako tradiční knihovna, prostou rozsáhlou sbírkou různých, většinou však literárních elektronických textů v různých formátech (Oxfordský archiv, který je dostupný a určený ke studiu, má asi tisícovku textů literárních děl v 25 jazycích v různých formátech a je tříděn hlavně podle vnější dostupnosti po síti a rozsahu textů; označkované jsou však jen některé z nich). Jiná velká podobná centra jsou např. na universitách v Torontu a Brigham Young. Vlastní elektronické korpusy vykazují značnou různorodost, zčásti dnes už považovanou za nedostatek. Liší se mnoha parametry, zvl. však podle jazyka, typu textů, zaznamenané formy jazyka (proti textům mluveným je textů psaných většina), cíle a typu využití, způsobu uchovávání, formy uchovávání, popř. i doprovodného vybavení aj. Z hlediska pokrytých jazyků jde počet korpusů do desítek, v řadě z nich je však korpusů více zároveň. V Evropě je dnes už velmi málo jazyků, které nějaký korpus nemají (srov. mj. Taylor et al.); r. 1990 ) eviduje A. Zampolli rozsah pokrytých jazyků mj. takto: např. pro francouzštinu existovalo dohromady 190 milionů slov (Frantext), 27,5 mil. pro němčinu, 60 mil. pro holandštinu, 30 mil. pro italštinu, 12 mil. pro srbochorvatštinu aj. V Evropě a USA se ovšem zpracovávají i některé korpusy z dalších, popř. i mimoevropských jazyků (např. arménština v Leidenu, klasická řečtina v Irvinu aj.). Zdaleka# největší pestrost i bohatství však představuje se svými více než 20 různými korpusy angličtina (viz např. Aijmer-Altenberg, 315n.); pro účely koordinace i přehledu tu vznikla mj. i organizace ICAME (International Computer Archive of Modern English) sídlící v norském Bergenu, která některé korpusy i distribuuje (informace po síti lze získat na adrese FILESERV@HD.UIB.NO). Zabývá se však především šířením obecných informací o zpracování korpusů vůbec (srov. její elektronický časopis CORPORA) a vedle zkušeností nabízí i některé nástroje. K hlavním korpusům angličtiny patří Brown Corpus (W.N. Francis a H. Kučera, americká angl., 1 mil.), LOB Corpus (=Lancaster-Oslo-Bergen, G. Leech, S. Johansson, K. Hofland, britská angl., 1 mil.), London-Lund Corpus (mluvená angl., J. Svartvik, 0,5 mil.), Helsinki Corpus (diachronní, M. Rissanen, O. Ihalainen, M. Kytö), Cobuild Corpus (J.M. Sinclair, dnes Databank of English, 160 mil.), British National Corpus (ve spolupráci oxfordské a lancasterské university, nakladatelství Longman a Oxford a British Library, 100 mil.), International Corpus of English (S. Greenbaum, 10 národních skupin a variet angličtiny z celého světa), Longman/Lancaster English Language Corpus (R. Quirk a G. Leech, 30 mil.), Survey of English Usage Corpus (napůl psaný a napůl mluvený, R. Quirk, S. Greenbaum, 1 mil.), Susanne Corpus (G. Sampson, 128 000 z Brown C. s relativně plně označkovanou i syntaxí) aj. Existuje i několik korpusů dvoujazyčných, popř. i vícejazyčných, např. mezi italštinou, resp. francouzštinou či dánštinou a angličtinou aj. Pro češtinu vznikl r. 1994 z inciativy interdisciplinární skupiny Počítačového fondu češtiny a spojením sil více univerzitních pracovišť a ÚJČ AV ČR Ústav českého národního korpusu, jehož cílem je vybudovat rozsáhlý a víceúčelový korpus češtiny obecné povahy na půdě Filosofické fakultě University Karlovy. Z hlediska typu textů se korpusy dělí především na obecné, resp. nespecifické a specializované. Existující pestrost zaměření specializovaných korpusů naznačuje jak pestrou paletu obecných možností jejich využití, tak individuální orientaci jednotlivých korpusů, které jsou zacílené např. na skotské drama, americkou povídku, dialekty, právní smlouvy a předpisy, naftařské texty, dětský jazyk, staré a první texty, jazyk novin, jazyk jednoho autora (např. korpus Thomase Manna) aj. I velké obecné korpusy mohou být složeny z více složek, subkorpusů, např. jazyka psaného-mluveného, synchronního-diachronního, nespecifického-specifického (např. terminologického), obecného-nářečního apod., a to navíc ve více podobách (viz dál 4.). Z hlediska typu uložení se korpusy dělí na ty, které existují v prosté podobě (t.j. ASCII formátu), nebo navíc v různém stupni i podobě označkované, popř. řídce i syntakticky analyzované; často existují i paralelně, obv. však jen zčásti, i v podobě doprovodných frekvenčních slovníků a konkordancí. Vlastní formou uchování je hard disk na komputerech různého typu, často zároveň i ve verzi na magnetických páscích, disketách či optických discích. Protože počet korpusů i jejich rozsah rychle roste, je dnes už zřejmá jak potřeba standardizace sběru a označování textů, tak možnost jejich vícenásobného, sdíleného použití (reusability - znovupoužitelnost). Tomu prvnímu je věnována mezinárodní iniciativa TEI (Text Encoding Initiative), sponzorovaná mj. Evropskými společenstvími a americkou vládou; TEI v několika dokumentech (zvl. Sperberg-McQueen et al. 1990, 1993, Hockey) doporučuje společný výměnný formát textů, zásad kódování nových a způsoby převodu mezi formáty existujícími. Její různé subkomise už mj. specifikovaly a doporučily i vhodné znakové sady, zásady textové analýzy v návaznosti na různé obory i kódovací metajazyk. Za ten byl pro deskriptivní rámec syntaktické analýzy zvolen SGML (Standard Generalized Markup Language, Bryan, Burnard), uznávaný od r. 1986 jako mezinárodní standard (ISO 8879). Opakovaná, obecná znovupoužitelnost textů (Hockey-Walker, Heid et al.), aktuální zvl. ve světle nákladů na pořízení a přípravu elektronických textů i jejich mezinárodní výměny, vyžaduje ke své realizaci vyřešení především otázek polyfunkčnosti korpusu, jeho polyteoretičnosti (tj. nepoplatnosti jedné úzké teorii), dostupnosti, intelektuálních vlastnických práv, reprezentativnosti, standardizace aj. Hlavním centrem mezinárodní inventarizace elektronických netechnických textů je od r. 1991 CETH (Center for Electronic Texts in the Humanities), situovaný na universitách Rutgers a Princeton; novým evropským střediskem se však v tomto smyslu stává i Edinburgh. Otázkám a zkušenostem práce s korpusem se věnují především dva časopisy: Literary and Linguistic Computing a Computer and the Humanities, srov. však i elektronický časopis CORPORA (viz výše). 4. Výstavba korpusu Hlavní fáze výstavby korpusu tvoří (A) specifikace jeho projektu, tj. jeho typu především podle cíle a použitelnosti (viz zvl. zde 3.), (B) zajištění potřebného hardwaru a softwaru, (C) sběr dat a jejich označkování (viz zde 2. a dál), (D) zpracování korpusu a integrace jeho částí (textová a relační databáze, konkordance, frekvenční seznamy, lemmatizace aj.) a (E) zajištění jeho dalšího růstu a zpětných vazeb (srov. Atkins-Clear-Ostler). Podle povahy korpusu jsou data v zásadě standardními vzorky nebo plnými texty, a to tak, aby se co nejvěrněji zachytila jak variabilita textů z hlediska jejich typů (variabilita lingvistická), tak rozsahu a složení jejich distribuce (variabilita situační). Jejich vlastní výběr se řídí podle pojetí, vymezení statistické populace, a to především kritérii (A) recepce či (B) percepce, a tedy podle toho, jak ho lidé užívají (recepce, tj. jazyka ve skutečnosti jen několika málo spisovatelů, novinářů apod. pro velmi široké publikum různých médií) či toho, jak ho píší a mluví (produkce, tj. jazyka velmi širokého vzorku aktivních uživatelů pro stejně široké spektrum příjemců). Protože jednostranná orientace na recepci (A) by znamenala zaměnit jazyk jen několika profesionálů, jakkoliv vlivný, za skutečně reprezentativní obraz celého spektra uživatelů a naopak orientace na produkci (B) by sice zachytila pestrost typů textů, ale za cenu záznamu i velmi řídkých, ne-li ezoterických případů, je třeba volit pro výběr textů percepci i recepci v určité proporci. Především tímto ohledem je dána zásadní otázka řešení nezbytné reprezentativnosti korpusu a jeho dat. Druhým ohledem při stanovení povahy reprezentativnosti je to, zda zapojená kritéria určující typy sledovaných textů, tj. (C) textů jakožto produktů, jsou externí či interní (srov. též Biber 1993). Interní kritéria jsou kritéria lingvistická (ne/formálnost textu, lexikon/syntax aj.), kritéria externí jsou naopak nelingvistická, nejazyková (týkají se typologie textů, tj. jejich původu, ne/připravenosti, žánru, situace, odbornosti, času aj.); žádná přímá či jednoduchá souvislost mezi oběma typy není. Avšak základní orientace primárně či výlučně jen na toto kritérium (C) by sice zachytila textové typy a registry, ne však tolik typické vzorce úzu různých sociálních skupin. Zjednodušený avšak vyčerpávající obraz populace, který lze užít jako rámec pro strategii projektu korpusu, nabízí D. Biber (Biber 1993); uvažuje o osmi hierarchizovaných situačních parametrech, použitelných hlavně pro stanovení povahy vzorku (z nichž hlavní jsou první tři): 1- primární kanál (jazyk psaný/mluvený/transkribovaný) 2- formát (ne/publikovaný, uvnitř dál dělený) 3- scéna (institucionální/jiná veřejná/soukromá či osobní) 4- adresát (a-pluralita: ne/vyčíslený/plurálový/ individuální/já sám; b-přítomnost, tj. čas a místo: ne/přítomný; c-interaktivnost: čádná/malá/rozsáhlá; d-sdílená znalost: obecná/specializovaná/osobní) 5- adresor (a-demografická variace: pohlaví/věk/zaměstnání aj.; b-uznání poplatnosti/díký: obecné/specializované/osobní) 6- faktuálnost (faktuální/informační/střední/ neurčitá/imaginární) 7- účel (přesvědčit/bavit/pozvnést/informovat/instruovat/vysvětlit/ vyprávět/popisovat/zazanamenat/přiznat# se/vyjádřit postoj, názor či emoci/posílit osobní vztah aj.) Z hlediska zastoupení různých jazykových prvků, jevů a forem podle D. Bibera platí tyto souvislosti: 1- Běžné lineární jazykové jevy mají velmi stálou distribuci a lze je získat spolehlivě i z relativně krátkých segmentů textu (často už o 1000 slovech). 2- řídké lingvistické jevy mají velkou distribuční variabilitu a vyžadují delší vzorky. 3- Jevy s distribucí probability po křivce, tj. různé typy jevů (např. kumulativnost slovních druhů) jsou relativně stálé v různých segmentech textů, ale výskyt nových typů postupně klesá. Naopak frekvence nových typů je ve vzorcích z různých textů vyšší než v textu jediném (což je důvod pro stratifikované vzorky, tj. z různých vrstev definované populace). Skutečné řešení reprezentativnosti velkých současných korpusů je ovšem různé, často z nedostupnosti některých objektivních kritérií. Takto např. Britský národní korpus (Summers) ji chápe poměrně široce a zdůrazňuje zaměření na typické a centrální jevy. Svou metodologii opírá o základní dělení textů na informativní a imaginativní (1-8 a 9-10 dole, v poměru 60 : 40 %), které dále dělí podle tématu na těchto deset superoblastí: 1-přírodní a čisté vědy (6 %), 2-aplikované vědy (4,3 %), 3-společenské vědy (14,1 %), 4-světové záležitosti (10,1 %), 5-obchod a finance (4,4 %), 6-umění (7,9 %), 7-víra a myšlení (4,7 %, tj. jak např. náboženství tak filozofie), 8-volný čas (5,7 %), 9-umělecká próza (40 %) a 10-poezie-drama-humor (2,3 %). Naproti dánský korpus (Norling-Christensen) vychází z kombinací tří základních kritérií či parametrů textů (jejichž zdrojem byly z celé třetiny jen noviny a z druhé knihy): obecný-odborný (91 : 9 %), psaný-mluvený (84 : 16 %) a recepce-produkce (88,8 : 11,2 %), a to v těchto proporcích: 1-obecný-psaný-recepce (71%), 2-obecný-psaný-produkce (3,9 %) 3-obecný-mluvený-recepce (9,8 %) 4-obecný-mluvený-produkce (6,8 %) 5-odborný-psaný-recepce (7,7 %) 6-odborný-psaný-produkce (0,15 %) 7-odborný-mluvený-recepce (0,32 %) 8-odborný-mluvený-produkce (0,14 %) Korpusová data (vnitřní), získaná z vnějších (viz 2.), musejí ještě před tím, než je lze použít, projít aspoň dvěma přípravnými fázemi, (1) čištěním a (2) standardizací, resp. unifikací (ne nutně v tomto pořadí). V první fázi jsou zbavena speciálních znaků editorů či jiných programů (zvl. sázecích), v nichž vznikla či kterými naposledy prošla; mohou však být podle potřeby zbavována i textových obrázků a grafiky, překlepů, tiskových chyb apod. Ve druhé se převádějí do zvoleného jednotného formátu (zvl. mezinárodního ASCII). Často však musejí data projít ještě třetí přípravnou fází spočívající, podle záměru a potřeby, v jejich případném scelování do větších celků apod. Nedílnou součástí této přípravné fáze zpracovaní jazykových dat v komputeru je jejich doprovodná archivní anotace, a to jak vnější, v podobě písemného záznamu do seznamu textů, tak vnitřní. Vnitřní anotace zachycuje, obecně řečeno, demografické aspekty textu a řídí se dnes při tom zpravidla mezinárodními standardy TEI (viz výše, srov. obecně Atkins-Clear-Ostler a Čermák). Takto pak přístupná a strojově čitelná vnitřní data v samotném počítači jsou takového druhu a povahy, jakou jim tvůrci korpusu v závislosti na zamýšleném cíli tvorby a využití korpusu dodají. Jakkoliv je to taky možné, prakticky žádný korpus dnes nedává k dispozici jen data v podobě prostých lineárních textových řetězců; jejich využití by bylo omezené jen na studium poměrně zdlouhavé vyhledávaných jednotlivých tvarů slov a jejich sousedství. V souladu s potřebou poznat skrze textové výskyty obecnější vlastnosti jazykového systému se textovým datům tudíž dodávají na škále delinearizace různě složité a často i korelované indexy, které ji různě silně ruší. Touto delinearizací, resp. zachycením a značkováním, taggováním (angl. tagging) zvolených aspektů tohoto procesu, lze tedy obecně rozumět zpětný převod lineární konkrétnější, resp. individuální syntagmatické stránky a manifestace jazyka do obecné výchozí a v různém stupni abstraktní paradigmatické stránky a podoby. Stupňů takového značkování tedy může obecně být tolik, kolik je potřeba a kolik lze komputerově (programově) úspěšně zavést a uplatnit; zdaleka však nepokrývá všechno, co by lingvista rád měl k dispozici. Nejsilněji syntagmatickou povahu, relativně nejbližší prosté textové podobě nepřipraveného textu, mají konkordance, t.j. obv. různě velké dílčí seznamy slovních forem v jejich přirozeném (co do rozsahu volitelném) kontextu, často s dodatečnou informací o místě výskytu v původním textu, frekvencí výskytu apod. Hlavní výhodou konkordance, užívané obv. v běžném standardu KWIC (Key Word in Context), je možnost studia slova (popř. jen jeho části), resp. všech jeho forem vedle sebe (obvykle se řadí abecedně), jejich kontextů a tím také různě pevných a habituálních kolokací, obecněji pak kolokability (spojitelnosti) slova, resp. jeho formy, a valence. Je to primární nástroj např. pro lexikografa, kterému nahrazuje kartotékovou dokumentaci výskytů, protože ten svou práci musí vždy začínat, především kvůli studiu významu slova a jeho odstínů, od úhrnu kontextů studované jednotky. Protože však jde u konkordance (podle zadání) o mechanické seřazení vždy stejně velkých úseků textu s daným výskytem každého slova (lze ovšem zadat i jejich určitá omezení a vynechávky), je jednak konkordance mnohonásobně větší než původní text a jednak nemusí vedle sebe uvádět všechny flektivní tvary slova, které k sobě patří, protože mezi nimi abecedně mohou figurovat slova jiná, která sem čistě abecedně taky patří (srovnej ukázku v příloze). Pro běžnou lingvistickou práci se tu nejvíce a hojně osvědčil v prostředí DOSu komerčně šířený oxfordský program Micro-OCP obsahující vedle vlastní konkordance řadu dalších nástrojů, popř. WordCruncher z Brigham Young University nebo KAYE od G. Kaye vyvinutý pro firmu IBM, v prostředí MacIntoshe pak zvláště úspěšně Conc, který je volně šiřitelný (mj. prostřednictvím Consortium for Lexical Research v Novém Mexiku). Pro velké počítače (mainframe, ale i Unixovské pracovní stanice) byl vyvinut OCP (Oxford Concordance Programme), jímž byl zpracován velký oxfordský slovník a z něhož byl pro potřeby PC pak vytvořen i zmíněný Micro-OCP. Pro svůj velký rozsah může být do formy konkordance převedena též jen určitá část jazykových dat korpusu, a to v zásadě buď účelově (se zadáním omezeného a dobře vymezeného cíle, popř. i možné selekce, např. při tvorbě slovníků), nebo obecně jako omezené referenční jádro korpusu pro základní (stručné) ověřování hlavních dat a jejich rysů. Full-textová databáze (též jen textová databáze) leží v podstatě kdesi na půl cesty mezi syntagmatickou lineární podobou řetězců textových výskytů a jejich paradigmatickou podobou v jazykovém systému. Tuto její přechodnou povahu zabezpečuje kombinace lineární textové podoby korpusu a přidaného značkování (viz i výše), které k lineárním tvarům přiřazuje jejich kategorie a tedy i paradigmatické třídy; míra, podoba a forma těchto značek může být ovšem velmi různá. Práce s takovouto podobou korpusu, která je dnes obvykle i podobou pro celý korpus základní a nejúplnější, umožňuje díky speciálnímu uložení pomocí zvláštních indexů rychlé vyhledávání a vyvolávání (angl. data retrieval) zadaných potřebných dat v celém korpusu; lze tu výhodně vyhledávat i kombinace slovních tvarů oddělené i větším počtem jiných slov, jejich souhrný výpis, statistiky apod. Pro prostředí DOSu je nejznámější zmíněný WordCruncher, popř. různé další komerční nelingvistické full-textové programy; v prostředí UNIXu je zdaleka nejrozšířenější program PAT (srov. např. Salminen et al.). Plnou korelaci se systémem a jeho kategoriemi tento typ programu v žádné podobě pochopitelně neumožňuje; záleží to na vneseném značkování a to zase na kvalitě výchozí teorie, kterou odráží. Hlavní potřebou lingvisty je totiž obvykle převést textové flektivní tvary a varianty pod neutrální slovníkové reprezentace, t.j. jejich lemmatizace. Lemmatizátor je tudíž takový program, který sám nebo v propojení s jiným programem (např. full-textovou databází) dokáže všechny tvary lexému svést dohromady pod společné lemma, např. nominativ či infinitiv (u českých sloves může jít o desítky až stovky tvarů k jedinému slovesu); vyvíjený český lemmatizátor může navíc k danému lexikálnímu základu, resp. kořenu dodávat i pravidelné deriváty z oblasti tvoření slov, tedy slovní čeledi. Žádný lemmatizátor však dosud není schopen lemmatizovat víceslovné tvary a jednotky, vždy se jeho možnosti omezují na diskrétní hranice tvaru jediného; zde tedy zůstává celé významné pole otevřené a dosud neřešené. Třetí formou správy a zpracování korpusových dat je databáze, obv. relačního typu, kde se buď užívají individuálně konstruované databázové programy, které však nedošly většího rozšíření, anebo komerčně šířené úspěšné programy, jako je pro DOS Oracle či Fox-Pro apod. Databáze tohoto typu je strukturována a vytvořena podle potřeby, t.j. skutečných jednotek obvykle slovníkového typu, jejich částí, hierarchie a vnitřní souvztažnosti, které jsou všechny vzájemně propojeny a lze v nich hledat podobně jako ve slovníku, ale ovšem také podle jednotlivých polí, tedy např. všechna slova/lemmata spojitelná s akuzativem, či mající ve výkladu svého významu slovo nástroj či způsob nebo barva apod. Tato nejvýrazněji paradigmatická a nejabstraktnější forma korpusu bývá jeho integrální složkou zvláště ve dvou případech: když je součástí korpusu i (obvykle velký) slovník daného jazyka, který pak může sloužit např. jako filtr pro ověřování a kontrolu dat, anebo když je takový slovník naopak jedním z cílů, o jehož dosažení výstavba korpusu usiluje. V tomto druhém případě je jako dodatečný nástroj nezbytný i lemmatizátor (o lexikální databázi srov. mj. Calzolari 1990, 1993). V optimální podobě jsou všechny tři formy korpusu navzájem propojeny tak, aby se data z jedné části dala spojovat s daty z části jiné, zvl. za účelem cíleného výstupu či aplikace, např. při rešerši určitého typu či tvorbě slovníku, kdy je třeba spojovat data dřívější (např. z naskenovaného slovníku, uloženého v relační databázi) s novými (zvl. v podobě konkordance). Všechny tři formy či mody existence korpusu tudíž mj. závisejí na dobrém a rychlém vyhledávacím programu; většinou je přímo součástí základních databázových programů obou typů (viz výše), popř. i programu konkordančního. Je pochopitelné, že ať už v podobě textové databáze či databáze relační, jsou v korpusu přístupné ty aspekty a aspekty jeho jednotek, do kterých se v podobě příslušného značkování dokázala uspokojivě promítnout ověřená a fungující lingvistická teorie, resp. její model. V tomto smyslu lze v korpusu vyznačovat relativně nejspolehlivěji jasné diskrétní jednotky formy (viz však neřešený problém víceslovnosti, ať třeba některých slovesných tvarů nebo frazémů), a tedy jevy v zásadě morfologické v užším i širším smyslu a z hlediska formálního tedy i jednoslovné jevy lexikální. Vedle nejběžnějšího značkování morfologického (zahrnujícího určení slovních druhů a různého počtu jejich kategorií) je však na kvalitě předchozí teorie neméně závislý návrh struktury databázového hesla, analogický v tomto smyslu značkování morfologickému. Vzhledem k nejednoznačné povaze řady aspektů je žádoucí, aby obojí značkování na sebe komplementárně navazovalo; doporučuje se dokonce, aby při značkování často existovalo i řešení paralelní, dvojí (McNaught). Zachycení syntaktických aspektů, vztahů a útvarů záleží na úspěšnosti učitého parseru (syntaktického analyzátoru) a kritérií a množství značkování (pozoruhodný je např. přístup uplatněný v korpusu Susanne, srov. Garside). Zpravidla však je tu dosud mnoho nevyřešené nejednoznačnosti, ani se tu nepřekročují přitom hranice věty. Samozřejmou možností je ovšem i analýza fonologická (srov. Leech ); ta a analýza fonetická, popř. prozodická se ovšem týká korpusu mluveného jazyka. Pro jazyky s přirozeně se vyvíjející, kodifikačně neochromenou formou a tudíž i přirozenou variabilitou se ovšem nabízí i analýza ortografická. Každá další analýza, zvl. analýza významu a většiny oblasti funkce včetně aspektů pragmatických zůstává, přes nejrůznější pokusy o její částečné uchopení (Patten), mimo dosavadní možnosti; výjimkou je nabízející se možnost sémantické analýzy založené na metajazyku slovníku uloženého v databázi (Alshawi; srov. však i projekt automatické obsahové analýzy, Wilson-Rayson). Vedle lemmatizátoru, parseru a dalších nástrojů je pro práci s korpusem, především v jeho základní podobě textové databáze zapotřebí mít k dispozici i vhodné softwarové nástroje (jako TACT, LEXA, PAT, Corpus-Bench aj.), které budou schopné splňovat aspoň tyto požadavky: rychlé a interaktivní ovládání, spolehlivé vyhledávání zjišťovaných forem i v různě modifikovatelných kombinacích, jejich různé statistické vyhodnocování včetně zjišťování frekvence, které v pozdější fází umožní i statistické odlišování různých významů a jejich odstínů aj. (srov. Gale et al., Čermák). První zkušenosti s korpusy v různých jazycích přinesly už i některé zásadní zkušenosti metodologické povahy. Jednak je zřejmé, že analýza většiny sémantické stránky jazyka (srov. mj. Atkins 1987, Pustejovski, Introduction, Kay), která je na rozdíl od diskrétní formy (tu lze opřít programově o binární volbu typu "ano-ne") spíše většinou kontinuální a škálové, resp. splývavé povahy (a tedy v závislosti především na volbě typu "spíše toto než to, popř. ono"), bude mít jinou povahu (M.A.K. Halliday: jazykový systém je inherentně probabilistický, jeho kontinuu s komplementárními perspektivami gramatiky a lexikonu lépe vyhovuje koncepce lexikogramatiky). Významný přístupem, založeným na předpokladu různé statistické pravděpodobnosti výskytu různých jevů formy, je vyhodnocování těchto aspektů na základě probabilistických odhadů, měření a různých indexů ) (o vztahu kvantitativních a kvalitativních aspektů viz mj. Itkonen). Vždy však ke studiu této stránky bude možné přejít pouze skrze zřetelně a spolehlivě okódovanou stránku formální; jedno tu tudíž předpokládá druhé. I ve formální stránce jazykových dat lze však pozorovat, resp. předpokládat nejednoduchost a nejednoznačnost, především ve smyslu časté variabilnosti formy. Na druhé straně se jako odraz určité skepse v sílu jednotlivých jazykových teorií také doporužuje (srov. Leech 1993), aby značkování bylo spíše jednodušší, široké a konsensuální (viz dál) a nevycházelo z jedné konkrétní teorie, protože se později nemusí osvědčit a označkovaná data by nebyla jinak použitelná i v přístupech dalších. Nejen v této souvislosti pak nabývají na významu stále častěji produkované frekvenční seznamy, resp. slovníky jak tvarů tak lemmat, dílčí či obecnější, doprovázející vznik a rozvoj korpusů. Slouží mj. především jako neocenitelný referenční zdroj ve všech otázkách, kde selhává formální gramatika i intuice. G. Leech (1993) shrnuje zkušenosti své i mnohých jiných s anotací a značkováním do sedmi zásad. Podle něj anotace má být (1) postradatelná, t.j. vždy musí být možné se vrátit k původnímu syrovému korpusu, (2) extrahovatelná (zvl. z textové databáze) a uložitelná zvlášť, (3) opřená o zásady přístupné, srozumitelné koncovému uživateli, a ne pouze lingvistovi, (4) autorsky vysledovatelná ke svému tvůrci (anotátorovi), (5) jen pohodlnou pomůckou ("device of convenience"), a nemá se tedy vydávat za zjevenou pravdu; uživatel má být varován a poučen, že je na něm, zda ji přijme či ne, (6) založena na konsensu většiny teorií a teoreticky tedy co nejneutrálnější, (7) ne autoritativní, ale být slučitelná se standardy jinými. Toto je třeba chápat zvl. v kontextu situace, kdy většina existujících korpusů má jen jedinou značku (tag, srov. Johansson 1991), což je spíše výhoda než nevýhoda. Zabezpečení dalšího růstu korpusu přihlíží především k potřebě udržet korpus vyrovnaný a reprezentativní, zvl. metodami postupných, cyklických aproximací založených stejně na potřebách jako na kladech a záporech zjištěných z analýzy materiálu už dostupného. V dalších krocích může tudíž jít jak o jeho kontrolované obohacování tak případné vypouštění některých dat. Jednou z běžných zkušeností (srov. např. Summers), která k takové korekci vede, je např. to, že v korpusu záhy převažují slova užívaná "tvůrčím" způsobem, a tedy jen okrajové důležitosti a chybějí naopak ta nejobyčejnější. Důležitost má taková zpětná vazba k jeho uživatelům, která umožní správci korpusu reagovat v kontaktu s nimi při další výstavbě korpusu na jejich zkušenosti, poznámky, varování apod. Nemalým korektivem i stimulem je ovšem i rostoucí mezinárodní spolupráce, standardizace a integrace jednotlivých národních korpusů do propojené sítě umožňující mj. i užitečnou výměnu a srovnávání dat. 5. Práce s korpusem a jeho využití Mluví-li jeden z dokumentů Evropských společenství v r. 1991 (Commission... 1991, 20) o tom, že "Technologie mluvy a jazyka vyžadují rozsáhlé databázové korpusy... pro výzkum a rozvoj, účely testování a k podpoře spisovatelů a překladatelů" a odpovídá tak na otázku Proč korpus?, pak o dva roky později člen téže komise ES DG XIII, J. Soler (Soler 1993) si už tuto otázku vůbec neklade a uvažuje spíše o způsobech jeho využití:"...rozvoj standardizovaných korpusů a metod a nástrojů jejich správy i aplikace je dlouhodobý podnik přesahující možnosti projektu individuálního. Nesmírnost úkolu, jehož má být dosaženo, i jeho náklady naznačují, že standardizované korpusy mají být budovány spoluprací skrze evropskou koordinaci národních snah, která je otevřená mezinárodním výměnám, i to, že výsledné korpusy mají být veřejné a orientované tak, aby uspokojovaly různé potřeby uživatelů." Základní hrubé lišení uživatelů korpusu je pochopitelně na (A) lingvisty a (B) nelingvisty, a rozpadá se dál do řady orientací a oblastí. Proti množství potřeb a specifických softwarových nástrojů, umožňující v případě první skupiny (A) elicitovat vzorce, struktury, schémata, kombinace a jejich typy, stojí v druhém případě (B) výsledky a poznatky zpravidla jen statisticky a probabilisticky zjišťované. Přes různost korpusů lze i z hlediska cílů jejich využití rozlišit především dva hlavní (Atkins-Clear-Ostler): (a) jako extenzivního zdroje dat, z něhož je možné vybírat, co je potřebné a (b) jako prostředí pro testování, trénování a vylepšování automatizovaných (lingvistických) nástrojů různého druhu. Lingvistické využití korpusů pochopitelně závisí na tom, s jakým cílem byly vybudovány; proti specificky orientovaným stojí korpus relativně obecný a vícefunkční, který však sám může být složen z různých homogenních vrstev, resp. subjazyků (McNaught) vhodných pro specifičtější cíle. Podle stupně označkování a analýzy korpusu, u které kvůli splývavé povaze dat zkušenosti (McNaught, Leech 1993 aj.) stále více mluví jen pro obecnou skeletonovou podobu, lze základní práci s textovým korpusem vidět v pěti fázích: 1-identifikace tvarů v textu, 2-zjištění distribuce tvarů a jejich kombinací s cílem odhalit syntaktické a sémantické třídy a jejich kombinace, včetně kombinací pevných, 3-zjištění, jak tyto sémantické třídy a jejich kombinace tvoří vyšší sémantické celky a struktury, 4-zjištění, jak se tyto vyšší struktury kombinují v základní textové jednotky, 5-zjištění, jak se získané výsledky promítají/mapují do struktur jiného jazyka. Je zřejmé, že jen skrze korpus půjde (1) - vzhledem k tomu, že tradiční popisy leccos vynechávají - poprvé v historii o možnost relativně úplného popisu jazyka, (2) o precizaci, resp. redistribuci hranic a podstaty mnohých tradičních jazykových kategorií a jevů (popř. testování dosavadních gramatik), (3) o první popis jevů, pro které dostatečná data dosud nebyla k dispozici a v neposlední řadě (4) i o reálnou šanci objevu jevů a souvislostí zcela nových. Obecně bude pozornost věnovaná většině těchto oblastí i specifických jevů znamenat i specifickou renesanci zájmu o statistické aspekty jazyka (Baayen, Köhlert et al.), a to nejen v jevech paradigmatických ale i syntagmatických, zvl. v oblasti kolokability jazykových forem (lexémů, Church et al.). Jednou z hlavních metodologických otázek, kterou bude třeba tak či onak odpovědět (srov. Leech 1991), je to, zda bude možné budoucí analýzu jazyka na korpusu opřít už o indukované a automatizované procedury objevování (discovery procedures), či zda lingvista bude i nadále muset zůstat u své intuice a lingvistické distinkce do textu vnášet. Menší míra úspěšnosti dosavadních kognitivních přístupů ukazuje spíše na nutnou interakci komputeru a člověka, která je založená na přístupech s nižší mírou výlučnosti (zvl. na gramatikách konečných stavů), doplňovaných probabilitami pro další měření přechodů mezi stavy, kategoriemi aj. Přirozeným důsledkem takového přístupu je sebeorganizující metodologie příslužných programů, které takto učí a zdokonalují samy sebe a jedním z hlavních požadavků, na ně kladených, je pak i schopnost indukovat datové struktury v textech do značné míry samostatně. V jistém protikladu, ukazujícím na pestrost přístupů i možností práce s korpusem, stojí naopak pokusy o generování textů na jeho základě (Bateman). Přestože korpus je pro lingvisty všeho druhu obecným a základním zdrojem, popř. testovacím prostředím (viz výše), lze s ohledem na jejich primární orientaci na něj rozlišit především následující typy: -lexikografové/lexikologové (zdroj informací o skutečném úzu obecně či specifických slov apod., srov.např. Atkins 1991, 1992, Atkins-Zampolli, Boguraev et al., Čermák, Fillmore et al., Karlsson, Kiefer et al., Meijs 1992), -komputační lingvisté (zdroj zjišťovaných statistických pravděpodobností jako klíč k analýze, prostředí k aplikaci teorií a modelů jazyka), -teoretičtí lingvisté (zdroj vzorků jazykových jevů i prostředí ověřování svých domněnek apod.), -úzcí specialisté (zdroj specifických informací, paralelních řešení i úzu ap. pro překladatele, terminology, dialektology aj., srov. Lewis, Meijs), -aplikovaní lingvisté (autoritativní a typický zdroj dat, zvl. pro výuku, tvorbu jazykových pomůcek, srov. např. Last, Pennington). Mimolingvistické využití korpusu se nabízí vlastně všem oblastem a disciplínám, které pracují s jazykem, a to hlavně jako referenční zdroj informací o distribuci zjišťovaného jevu. Především tu jde však o specialisty různých oborů zaměřené na obsah textů (historikové, literární kritikové, tvůrčí autoři, sociologové, psychologové, srov. Bateman-Hovy, Burrows, Williams) či jejich formu (specialisté na média včetně např. reklamy, stejně jako právníci apod.). V řadě oblastí se však oba aspekty překrývají (právní normy), v jiných se doceňují i souvislosti, které nejsou zřejmé na první pohled (studiu korpusu z hlediska komunikace věnují pozornost např. i projekty americké armády). Silně se rozvíjejícími oblastmi specifických aplikací pro různé obory jsou nyní systémy získávání informací (information retrieval systems) a expertní systémy, strojový překlad (založený na statistických systémech a paralelních korpusech dvou/více jazyků) a zpracování mluvy včetně její syntézy. O dalších nezřejmých možnostech využití korpusů svědčí cíle některých menších korpusů (srov. zvl. Taylor-Leech-Fligelstone), pro které byly vytvořeny: výzkum školní četby, řešení otázek psycholingvistiky či zjišťování sporného autorství. Za specifický cíl studia jazyka na korpusu se však často považuje studium jazykové variace. Obecné možnosti z hlediska typu jazykové formy nastiňuje následující přehled; naznačeny jsou v něm i hrubé kvantitativní poměry, resp. množství dat, kterých se variace týká. FORMY: Kvantitativně A invariabilní všechny B variabilní a-diachronně (dublety..) výjimky? b-pozičně synchronní (var. prep) málo C variabilní synchronní (morfologie) většina 1 nominativně (synonyma) hlavně autosémantika, zvl. S/A a-substituce hlavně autosémantika,# zčásti pron b-víceslovnost idiomy a frazémy c-smíšená (a:b) 2 gramaticky a-částečná obměna S A V ADV zčásti pron num b-víceslovnost V (čas/modus/reflexivita) S/A reflexivní c-kontrakce V víceslovná (2b) d-smíšení aj. ? Vedle studia jazykové variace formy se však stále více dostává do popředí potřeba zmapovat především hlavní oblasti a aspekty sémantiky jazyka, jejich distribuci, vzájemnou souvztažnost apod. Elementární situaci cílů tu lze zachytit např. takto: VÝZNAMY/SÉMY aj.: A-systém a-sémy/sémantické komponenty b-hyponymie/taxonomie/tezaurus B-text a-rámce/scénáře/témata (typická) b-pragmatické funkce Bibliografie -Aarts J., Meijs W., eds., 1990, Theory and Practice in Corpus Linguistics. Rodopi Amsterdam -Aijmer K., Altenberg B., eds., 1991, English Corpus Linguistics. Studies in Honour of Jan Svartvik, Longman London -Alshawi H., 1989, Analysing the Dictionary Definitions. In Boguraev et al. 153- 170 -Atkins B.T.S., 1987, Semantic ID-tags: corpus evidence for dictionary senses. The Uses of Large Text Databases: Proceedings of 3rd Annual Conference of the UW Centre for the New Oxford English Dictionary. University of Waterloo Waterloo -Atkins S.T.S, 1991, Corpus lexicography: The Bilingual Dimension. In Computational Lexicology and Lexicography. Vol. I. Guardini Pisa, 43-64 -Atkins Sue, Clear J., Ostler N., 1992, Corpus Design Criteria. LLC, Vol. 7, No. 1, 1-16 -Atkins B.T.S., 1992, Tools for computer-aided corpus lexicography: the Hector Project. In Kiefer et al., 1-59 -Atkins B.T.S, Zampolli A., eds., 1994, Computational Approaches to the Lexicon. Clarendon Press Oxford (=5. Pisa International Summer School on Computational Lexicology and Lexicography) -Baayen H., 1992, Statistical Models for Word Frequency Distributions: A Linguistic Evaluation. Computers and the Humanities 26, 347-363 -Baker M., Francis G., Tognini-Bonelli E., eds., 1993, Text and Technology. In Honour of John Sinclair. J. Benjamins Amsterdam -Bateman J.A., E.H.Hovy, 1992, Computers and Text generation: Principles and Uses. In Butler, 53-74 -Biber D., 1989, A Typology of English Texts. Linguistics 27 -Biber D., 1993, Representativeness in Corpus Design. LLC O:4, 243-257 -Boguraev B., Briscoe T., 1989, Computational Lexicography for Natural Language Processing. Longman London New York -Briscoe T., 1991, Lexical Issues in Natural Language Processing. In Klein E., F. Veltman, eds., 1991, Natural Language and Speech, Springer-Verlag Berlin, 39-68 -British National Corpus. Written Corpus Design Specification, 1991 (informační materiál) -Brunet É., ed., 1986, Méthodes quantitatives et informatiques dans l'étude des textes (hommage a Charles Mueller). Colloque international de CNRS. Université de Nice. Slatkine-Champion Paris -Bryan M, 1988, SGML: An Author's Guide to the Standard Generalized Markup Language. Addison-Wesley, Wokingham (England), Reading (Mass., USA) -Burnard L., 1991, What is SGML and How Does it Help? TEI DOcument TEI ED W25. TEI fileserver tei-l@uicvm -Burrows J.F., 1992, Computers and the Study of Literature, in Butler, 167-204 -Butler C.S., ed., 1992, Computers and Written Texts. B. Blackwell Oxford -Calzolari N., 1990b, Structure and Access in an Automated Lexicon and Related Issues. In Calzolari 1993a, 139-161 -Calzolari N., 1990, Lexical Databases and Textual Corpora: Perspectives of Integration for a Lexical Knowledge-Base. In Zernik U., ed., Lexical Acquisition: Using On-line Resources to Build a Lexicon. Lawrence Erlbaum Hillsdale New Jersey -Calzolari N., 1993a, ed., Fifth European Summer School in Logic, Language and Information Course. Computational Lexicons. Reader. Faculdade de lettras universidade de Lisboa Portugal. -Calzolari N., 1993, Detecting Patterns in a Lexical Database. In Calzolari 1993, 170-173 -Calzolari N., T. Briscoe, 1992, ACQUILEX-I and -II. Acquisition of Lexical Knowledge from Machine-Readable Dictionaries and Text Corpora. In Calzolari 1992a, 1-17 -Church K.W., Hanks P., 1990, Word Association Norms, Mutual Information and Lexicography. Computational Linguistics 16/1 -Commission of the European Communities, 1991, Language and Technology: Preliminary Consultations with Industry and User Organisations, Vol. 1 DGXIII-B, CEC, Luxembourg -Corpusgebaseerde Woordanalyse. Jaarboek 1986-1992. Vrije Universiteit Faculteit der Letteren. Vakgroep Taalkunde Amsterdam -Crowdy S., 1991, Spoken Corpus Design and Transcription. 1991 (dokument) Longman Dictionaries -Crowdy S., 1993, Spoken Corpus Design, LLC 8:4, 259-265 -Čermák F., 1994?, Komputační lexikografie. In Manuál lexikografie, eds. F. Čermák, R. Blatná. H+H Praha -Čermák F., Králík J., Pala K., 1992, Počítačová lexikografie a čeština. SaS 53, 41-48 -Evens W., 1988, Relational Models of the Lexicon. Cambridge U.P. Cambridge -Fillmore C.J., B.T.S Atkins, 1994, Starting where the dictionaries stop: the challenge of corpus lexicography. In Atkins B.T.S., Zampolli A., eds., Computational Approaches to the Lexicon -Gale W.A., K.W. Church, D. Yarowsky, 1992, A Method for Disambiguating Word Senses in a Large Corpus. Computers and the Humanities 26, 415-439 -Garside R.G., G. Leech, G. Sampson, 1987, A Computational Analysis of English. Longman London -Garside R., 1993, The Large-Scale Production of Syntactically Analyzed Corpora, LLC 8:4, 39-45 -Gunton T., 1992, The Penguin Dictionary of Information Technology and Computer Science. Penguin Books Harmondsworth -Halliday M.A.K., 1991, Corpus studies and probabilistic grammar. In Aijmer et al. 30-43 -Heid U., M. Heyn, O. Christ, 1992, Extracting Linguistic Information from Machine-Readable Versions of Traditional Dictionaries: a Metalexicographic Method and Some Tools. In Kiefer et al., 161-174 -Hockey S., 1991, The ACH-ACL-ALLC Text Encoding Initiative: An Overview. TEI Document TEI J16. TEI fileserver tei-l@uicvm -Hockey S., D. Walker, 1993, Developing Effective Resources for Research on Texts: Collecting Texts, Tagging Texts, Cataloguing Texts, Using Texts, and Putting Texts in Context. LLC 8:4, 235-242 -ICAME Collection of English Language Corpora (CD-ROM), 1991 (materiál) -Ide N., 1992, Introduction: Common Methodologies in Humanities, Computing and Computational Linguistics. Computers and the Humanities 26, 327-330 -Illingworth V., ed., 1991, Dictionary of Computing. Oxford Oxford U.P., 3.ed. -Introduction to the Cambridge Language Survey Semantic Coding Project, 1994 (dokument) -Itkonen E., 1980, Qualitative vs quantitative analysis in linguistics. In Perry T., ed., Evidence and Argumentation in Linguistics. de Gruyter Berlin -Johansson S., Atwell E., Garside R., Leech G., 1986, The Tagged LOB Corpus. Users' Manual. Norwegian Computing Centre for the Humanities. Bergen -Johansson S., K. Hofland, 1989, Frequency Analysis of English Vocabulary and Grammar 1-2. Clarendon P. Oxford -Johansson S., 1991, Times change, and so do corpora. In Aijmer et al. 305-314 -Johansson S., Stenström A.-B., 1991, English Computer Corpora: Selected Papers and Research Guide. Mouton de Gruyter Berlin -Karlsson F., 1992, Lexicography and Corpus Linguistics. Opening Address at 5th Congress of Euralex. Tampere -Kay C.J., T.J.P. Chase, 1987, Conastructing a Thesaurus Database, LLC 2, 161-163 -Kaye G., 1989, KAYE. The KWIC Analyser. IBM UK Scientific Centre Winchester -Kiefer F., G. Kiss, J. Pajzs, eds., 1992, Papers in Computational Lexicography COMPLEX '92. Linguistics Institute, Hungarian Academy of Sciences Budapest -Köhler R., Rieger B.B., eds., 1993, Contributions to Quantitative Linguistics. Proceedings of the First International Conference on Quantitative Linguistics. Kluwer Dordrecht -Kučera H., W.N. Francis, 1967, Computational Analysis of Present-Day English. Brown U. P. Providence, Rhode Island -Last R., 1992, Computers and Language Learning: Past, Present - and Future? In Butler 227-247 -Leech G., 1991, The State of the Art in Corpus Linguistics. In Aijmer- Altenberg, 8-29 -Leech G., S. Fligelstone, 1992, Computers and Corpus Analysis, in Butler, 115-140 -Leech G., 1993, Corpus Annotation Schemes. LLC 8:4, 275-281 -Lewis D., 1992, Computers and Translation, in Butler 1992, 75-114 -McNaught J., 1993, User Needs for Textual Corpora in Natural Language Processing. LLC 8:4, 227-234 -Meijs W., ed., 1987, Corpus Linguistics and Beyond. Rodopi Amsterdam -Meijs W., 1992, Computers and Dictionaries, in Butler, 141-166 -Micro-OCP. User Manual, 1988, Oxford University Computing Service. Oxford, University Press Oxford -Norling-Christensen O., 1992, Preparing a Text Corpus. Computational Tools and Methods for Standardizing, Tagging and Structuring Text Data. In Kiefer et al., 251-259 -Patten T., 1992, Computers and natural Language Parsing. In Butler, 29-52 -Pennington M., Stevens V., eds., (in press), Computers in Applied Linguistics: an International Perspective. Multilingual Matters, Clevedon, Avon -Procter P., The Cambridge Language Survey (nedatovaný materiál) -Pustejovski J., 1993, Semantics and the Lexicon. Kluwer Dordrecht -Rissanen M., 1989, Three problems connected with the use of diachronic corpora. Journal of ICAME 13, 16-19 -Salminen A., F. W.M. Tompa, 1992, PAT expressions: an algebra for text search. In Kiefer et al., 309-331 -Sampson G., 1993, The Need for Grammatical Stocktaking, LLC 8:4, 267-273 -Sinclair J.M., 1987, ed., Looking Up: An Account of the COBUILD Project in Lexical Computing. Collins Glasgow -Sinclair J.M., 1991, Corpus Concordance Collocation. Oxford U.P. Oxford -Smith M.W.A., 1987, Hapax Legomena in Prescribed Positions: An Investigation of Recent Proposals to Resolve Problems of Authorship, LLC 2:3, 145-152 -Soler J., 1993, Text Corpora: Meeting the Challenge of Information Excess, LLC 8:4, 1 -Souter C., Atwell E., eds., 1993, Corpus-Based Computational Linguistics. Rodopi Amsterdam -Sperberg-McQueen C.M., L. Burnard, eds., 1990, Guidelines for the Encoding and Interchange of Machine-Readable Texts, draft ver. 1.0, Association for Computational Linguistics/Association for Computers and the Humanities/Association for Literary and Linguistic Computing, Chicago and Oxford -Sperberg-McQueen C.M., L. Burnard, eds., 1993, Guidelines for the Encoding and Interchange of Machine-Readable Texts, draft ver. 3, TEI DOcument P3, ACH-ACL- ALLC. Chicago, Illinois and Oxford -Summers D., 1991, Longman/Lancaster English Language Corpus. Criteria and Design (dokument) -Svartvik J., 1990, The London-Lund Corpus of Spoken English: Description and Research. Lund Studies in English 82. Lund Lund University Press -Svartvik J., 1992, Lexis in English Language Corpora. In Euralex '92 Proceedings I, 17-31 -Svartvik J., ed., 1992, Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82, Stockholm 4-8 August 1991, Mouton De Gruyter The Hague Berlin -Taylor L., Leech G., Fligelstone S., 1989, Lancaster Preliminary Survey of Machine-Readable Language Corpora. (materiál) -Thomson N., 1989, How to Read Articles which Depend on Statistics, LLC 4:1, 6-11 -Walker D., A. Zampolli, eds., 1994, Automating the Lexicon. Research and Practice in a Multicultural Environment. Clarendon Press Oxford -Warwick S., J. Hajič, G. Russell, 1990, Searching on Tagged Corpora: Linguistically Motivated Concordance Analysis. In Electronic Text Research. Proceedings of the Sixth Annual Conference of the Centre for the New OED. University of Waterloo, Waterloo, 10-18 -Williams N., 1992, Computers and Writing, in Butler, 247-265 -Wilson A., Rayson P., 1993, The Automatic Content Analysis of Spoken Discourse: A Report on Work in Progress. In C. Souter, E. Atwell, eds., Corpus-Based Computational Linguistics. Rodopi Amsterdam, 215-226 -WordCruncher (IndexETC, ViewETC). Text Indexing and Retrieval Software, 1987, Electronic Text Corporation. Brigham Young University Provo -Zampolli A., 1990, A Survey of European Corpus Resources. In SALT. Proceedings of a Workshop on Corpus Resources. LOndon DTI/Speech and Language technology Club, 64-84 -ICAME Journal. Bergen -Journal of Literary and Linguistic Computing (LLC) -Computational Linguistics (CL) -La Banque des mots (zvl. numéros speciaux 1988, 1989, 1990, 1991). CNRS-INaLF, Conseil international de la langue francaise PŘÍLOHA Ukázka malé konkordance slov DNES, JAK a MOC z jednoho týdne novin (LN, květen 1991), vytvořené pomocí Micro-OCP. Celý text obsahuje 20 964 textových slov (tvarů) a 8957 lemmat (slovníkových hesel) ilustrující jejich úzus. dnes 22 jejichž dozvuky ještě dnes prolínají čas od času na stránky Když jsem dnes otevřel Lidové noviny z 21.května JEDNÁNÍ O LUSTRACÍCH AŽ DNES o FIS: PŘERUŠENO a pořad pléna má přijít až dnes Cena, kterou jsem dnes poctíván, je udělována spíš dém, ale poklidném venkově, dnes jich tam zbývá stolků pár metrů od radnice. Dnes soukromá jak se má dnes. Na ztracené vartě potrefená husa, tehdy jako dnes, na tuto do Bruselu, kde dnes podepíše Dohodu o půjčce mezi Evropským kého rockového podzemí řeší dnes úplně jiné problémy Lobkowicz, 35letý rodák ze Švýcarska, dnes BŘECLAV ZH Slyšíte-li dnes o záplavách v lužním lese 1280 Bohužel se dnes lužní les zavlažuje jen na malém úseku regulaci Moravy a Dyje a dnes za tento hřích pyká. Lužní les Rozptylové podmínky budou dnes dobré, v severočeské pánvi Dnes se prezident se svým doprovodem vrací do na dnes večer 19.00 do Janáčkovy síně v Praze 1, rican film, jenž bude mít dnes prémiéru KVAČKOVÁ TANKOVÝ PRAPOR: DNES SVĚTOVÁ, ZÍTRA ČS. PREMIÉRA Půjde-li dnes a ono půjde, neboť režii nemá stát anglistická veřejnost, ho dnes mohou poznat i jak 39 Jako Čecha mě přirozeně zajímá, jak se s podobnými chybnými čísly. Jak však sám uznává, přesné údaje o škodě investice v Československu, jak pan abídnout jiným novinám. Tak jak rozcházejí. A jak je to v demokracii vlastně možné, že zpravodajských prostředků. Jak zástupkyně předkladatelů postavení FIS je nezbytná. Jak konstatoval federální ministr fenomén moci, jak jsem ho zatím tak říkajíc zevnitř yto tři druhy důvodů se vždycky, jak jsem si všiml a dokonce jako svého druhu objev. Jak tak ale ám. Je velmi zajímavé pozorovat, jak enka či máslo, jak se vaří káva, jak se řídí auto a jak se telefonuje. Ocitám se tedy vrcholů. Naopak, jak působivá byla tichá ševelení, jemné smiling. Jak ostatní, nevím úvodu přednášeli o tom, jak se v Anglii, kde Eduard bezvýchodné situace, k níž došlo jak pod vlivem hudební jak už to v dnešní hudbě bývá zvykem, jak bychom program mohli nazvat, y Liberálně demokratické strany. Jak nám sdělil na Jak řekl německý ministr obrany liberalizace. Je však třeba, jak pravili přítomní znalci praktické ukázce, jak taková záměna obsahu vypadá lovely, i kdyby ševci padali. A jak jsou metropoli relativní klid. Jak ČTK telefonicky sdělil zástupce Na otázku LN, jak se cítí v roli ekonoma, do níž je yužít lukrativnějším způsobem. Jak si pomoci tady tart mi vnukl spíše představu, jak Šimon a Matouš cestou bojkotovala jedání o tom, jak vyplnit nynější mocenské vé akce a s tím, co konkrétně a jak budeme dělat Příště si probereme, jak budou navazovat jednotlivá Ano, poprvé to bylo před více jak dvaceti lety. Svaz z vás optimismus. Jak lze tyto dva postoje spojit e v Praze pouze několik dní, jak na Vás Je z ní patrno, jak obrovský obchod, s ostatními pomněl dvţ různé cesty republik, jak se Na otázku, jak chtějí republiky přijít k penězům, ituaci, kdy mnohé naznačuje, že moc politického útlaku je existenci moci váze, neţ jaký nabízí politická moc? Vždyť ze samé své o moc jako takovou, ale pouze o určité obecné hodnoty, a ţe touha po výhodách, které moc přináší, anebo prostě jen dát u těch nás, kteří žádnou moc nikdy neměli a vždycky : na jedné straně dává politická moc člověku ţlého rodáka parafrázovat a říct moc k smrti si své slávy vskutku moc Pet Shop Boys. Moc živé muziky jsme při něm neslyšeli, ne, jestliže KSČ u nás převezme moc. Jakoby mi 22 moci Básník v prostředí moci ovšem si to nebudou moci dovolit, ve vlastní zemi budou fenomén moci, jak jsem ho zatím tak říkajíc zevnitř tně lidé touží po politické moci a proč se této moci když ji mají tak neradi vzdávají politické moci a proč se jí tak nerado vzdává, je pestrá ţit z výhod, které z politické moci důvodů touhy po politické moci, o níž jsem hovořil, totiž ţábelské je pokušení moci právě v této sféře. Nejlépe to lze jsme se náhle sami ocitli u moci tupu od sebe sama, aby člověk u moci, byť to Tedy znovu: jsa u moci, jsem si permanentně podezřelý svůj zápas s pokušeními moci zvolna začínají prohrávat a moci a ve všem, co k ní logicky patří, budou moci v historickém centru Prahy, ale výkonné moci Básník v prostředí moci příští konkurence nebude moci upřít hladký nástup KSČ k totalitní moci v únoru 1948 X...tak se budeme moci oslovovat již za tři čtvrtě Až začne škola, budeme si moci koupit kupónové knížky mocí 3 pouze nahrazována mocí ekonomické nerovnosti. Zdůraznil e svou touhu být mocní a svou mocí a jejím dosahem V pokušení mocí je cosi velmi zákeřného, šálivého a #