Využití korpusů pro lingvistická bádání (volný překlad dle : Tony McEnery & Andrew Wilson: Corpus Linguistics, Edinburgh Teextbooks in Empirical Linguistics 1996, 1997) Korpusy – zdroje empirických dat V dnešní přednášce se budeme věnovat roli, kterou korpusy mohou sehrát a sehrávají ve zkoumání jazyka a při tzv. NLP, tedy snahách o tvorbu počítačového modelování jazyka. Podívejme se tedy nejprve na studium jazyka jako takového. Jak jsme si již řekli, spočívá význam korpusů především v tom, že jsou zdrojem empirických (autorem neovlivněných, nezávislých) dat. Umožňují tak jazykovědci vyslovovat závěry, které jsou objektivně podloženy a neopírají se jen o subjektivní pozorování introspekci jedince. Použití empirických dat pro studium jazyka rovněž otevírá možnost studovat jazykové variety jako např. dialekty nebo starší stádia jazyka, které racionalistickým přístupem uchopitelné nejsou. Je patrné, že empirický výzkum je možný i bez korpusu. Celá řada lingvistů označují jako korpus data, která přísně vzato korpusem nejsou, protože neodpovídají všem požadavkům definice korpusu v úzkém terminologickém slova smyslu (neobsahují přesně definované vzorky, variety, atd.) Správně by měli říkat, že se opírají o sbírky textů (collections of texts). Můžeme tedy shrnout, že korpusová lingvistika nutně zahrnuje empirický přístup, ale empirický přístup nutně nepotřebuje korpus, tudíž ne každý, kdo přistupuje k jazyku empiricky je eo ipso korpusový lingvista. V tom, co bude následovat, se podíváme na to, jakou roli mohou korpusy hrát v různých odvětvích lingvistického výzkumu. Zaměříme se na to, přoč jsou korpusová data důležitá právě v některých oblastech a jak může korpusově orientovaný výzkum přispět k rozvoji lingvistického bádání. Vy sami byste se měli zamyslet nad dalšími příklady, které vás napadnou (závěrečný návrh). Korpusy a výzkum řeči Zde existují dvě významné oblasti. Za prvé už samo budování korpusu mluvené řeči znamená shromáždění širokého výběru variant mluveného jazyka podle mluvčích lišících se věkem, původem, pohlavím, vzděláním. Vzorky pak jdou napříč různými žánry (konverzace na různá témata, beseda, přednáška, přednes, kázání atd.). Tato šíře záběru má dva klady. Šíře korpusu umožňuje snadnější generalizaci učiněných pozorování než omezený vzorek (reprezentativnost umožňuje generalizaci). Pokud můžeme vybírat z korpusu podle klíče, jímž je některý vzorek, můžeme zkoumat menší subkorpusy (jak mluví ženy, mládež, jak vypadají kázání) a studovat variety jazyka jednotlivě. Druhou výhodou korpusu mluveného jazyka je, že zahrnuje vzorky přirozené řeči tak jak se mluví ve skutečnosti. Zde záleží především na tom, aby respondent, informátor mluvil přirozeně a nepřizpůsoboval, nemodifikoval svůj projev. Vzhledem k tomu, že korpus mluveného jazyka (KMJ) zahrnuje většinou prosodické anotace,můžeme jej zpracovávat pomocí kvantitativních metod. Je možné postupovat dvěma způsoby. Za prvé je možné testovat na datech různé hypotézy, za druhé můžeme na základě pozorování dat hypotézu vytvořit, a pak ji na datech ověřit. V obl. českých mluvených korpusů – málo až nic. Korpusy a studium lexika Lexikografové používaly empirická data dlouho před tím, než KL vznikla. Sběr dat pro slovníkové práce byl založen na sběru lístkových katalogů sestavovaných z příkladů lexikálních jednotek a jejich užití nalezených v různých zdrojích empirických dat (literárních aj. textech). Tak např. vznikl Oxford English Dictionary Samuela Johnsona v 19. stol. nebo PSJČ. Praxe opírající se o sběr citací stále v lexikografii pokračuje. Korpusy nicméně přispěly a přispívají k rozvoji lexikografie velmi významným způsobem, neboť umožňují nejen lexikografům, ale všem lingvistům nový pohled na slovník. Korpusy i libovolné sbírky textů umožňují vyhledání zadané lexikální jednotky v nejrůznějších případech jejího použití z velkých milionových korpusů během několika vteřin. Použití korpusů umožňuje rychlé rozšiřování a obohacování slovníku. Definice a výklad mohou být co nejbohatší až kompletní, velmi precizní. Příklady a doklady se díky počítačovému zpracování moho rychle řadit do smysluplných podskupin (kupř. pravý/levý kontext, abecední řazení atd.). Slovníky mohou obsahovat použití lexikální jednotky v různých jazykových varietách (regionální – srov. angličtina – britská, americká, australská,…), autor, žánr. Při sestavování slovníků se nejčastěji používá tzv. otevřených monitorovacích korpusů, jak jsem se o nich zmínila ve druhé přednášce. V lexikografii hrají roli logicky proto, že se do nich s přílivem nových dat dostávají jednak nově vznikající lexikální jednotky, jednak nová užití existujících lexikálních jednotek. Tyto korpusy se vzhledem k neustálé proměně nehodí pro kvantitativní analýzy. Ohromný význam mají korpusy (specializované) pro sestavování terminologických slovníků, kde právě souvýskyt a možnost jeho srovnání umožňují přesně definovat obsah termínu. Tak jako význam slova je možné z korpusu vyčíst i údaje o jeho gramatických vlastnostech, zejména morfologii. Rychle a pružně můžeme zkoumat existenci, frekvenci a především rozvržení morfologických variant a produktivitu morfémů. Korpusy a gramatika Gramatika a syntax se často opírala o výzkum založený na datech korpusového typu. Korpusy jsou pro výzkum gramatiky důležité jednak proto, že přinášejí data, která je možné posuzovat z kvantitativního hlediska, jednak proto, že umožňují testování různých hypotéz a gramatických teorií. V poslední čtvrtině dvacátého století se korpusově orientovaný výzkum gramatiky zaměřil především na kvantitativní analýzu, která pomohla jít za subjektivní tvrzení a odhalila skutečné rozdíly mezi obecným a zvláštním, frekventovaným a řídkým. V roce 1985 vydal Quirk a kol. gramatika Comprehensive Grammar of English Language založenou na korpusech. Na korpusech lze frekvenční analýzou testovat celou řadu jevů popisovaných v klasických gramatikách a ověřit si minimálně jejich výskyt v korpusu, jejich frekvenci a při dalším zpracování význam (interpretaci) různých výskytů. V minulých přednáškách jsme se několikrát zmínili o tom, že korpusový přístup stojí v opozici k tzv. racionalistickému přístupu. V oblasti zkoumání gramatiky se objevuje kombinace obou hledisek. Introspekcí získaná fakta se ověřují na materiálu korpusu a sleduje se tak obsah a rozsah jejich platnosti. Korpusy a sémantika Zmínili jsme se o tom, že v korpusu můžeme vyhledat jednotlivé výskyty slov, které nás zajímají a podívat se na ně, co v různých kontextech znamenají (lexikální sémantika – lexikografie). Korpusy mohou mít a mají svůj význam i pro obecnou sémantiku, protože umožňují výzkum významu založený na objektivním přístupu k jazyku. Mindt (1991) ukázal, jak vytvořit objektivní kritéria pro odhalení významu lingvistických jednotek. Poukázal na to, že stanovení významu jazykové jednotky se většinou opírá o racionalistické přístupy (jak tomu rozumím). Na základě kvantitativních analýz různých významů lze ovšem ukázat objektivní význam různých jednotek opřený o empirickou evidenci. Sám zkoumal různé způsoby vyjadřování budoucnosti v angličtině. Druhým příspěvkem KL v sémantice je možnost přesněji vymezit zhruba určené gramatické kategorie, přesně vymezit, která jednotka do kategorie patří a která nikoliv. Některé kategorie jsou uzavřené a mají pevně stanovené a stanovitelné hranice, jiné jsou otevřené a jejich hranice se jen těžko vymezují. Korpusy mohou přispět tím, že místo toho, abychom se snažili postihnout hranici mezi kategoriemi v termínech patří do – nepatří do (inkluze – exkluze), postihneme rozdíl v termínech kvantitativních většinou – někdy – málokdy,, přičemž se můžeme opřít o výčet příkladů, které mohou sloužit jako vzory pro další neuvedené příklady, které se posléze vyskytnou. Korpusy pragmatika a analýza diskurzu V této oblasti je využití korpusů dosud poměrně málo zastoupeno. Pragmatika se definuje jako význam v kontextu. Vzhledem k tomu, že korpusy jsou sestavovány s menších vzorků, mohou být pro pragmatická bádání omezené. Nicméně např. v PFG (Sgall, Hajičová – MFF UK) – zaměřuje se na zkoumání diskurzu a pracuje s korpusy. Korpusy a sociolingvistika Sociolingvistika sdílí s historickou jazykovědou, dialektologií a stylistikou to, že se odevždy opírá primárně o data, která můžeme v širším (ne úzce terminologickém) smyslu pokládat za korpusy (korpusová data). Vzhledem k tomu, že tato data nebyla sbírána primárně pro účely kvantitativního výzkumu, nebylo jejich sestavování podrobeno tak přísným požadavkům, které jsou kladeny na moderní korpus v úzkém slova smyslu (vzorky / reprezentativnost). Většina sociolingvistických projektů a studií využívajících korpusy se zabývá zkoumáním lexika z hlediska tzv. genderové lingvistiky (vliv pohlaví autora textu na výběr lexikálních a jazykových jednotek). Problém, na nějž se naráží a který by bylo možno odstranit, je nedostatečné zpřístupnění sociolingvistických informací v notacích korpusu a nedostatek sociolingvistického přístupu při sestavování vzorků. Sociolingvisticky anotované korpusy přinesou zajisté průlom v této abl. využití KL. Korpusy a stylistika Typické stylistické výzkumy se mnohem spíše orientují na výzkum jazyka jednotlivce (díla), než na zkoumání širokých variet jazyka. Stylistika se tedy spíše než o korpusy v pravém slova smyslu opírá o počítačově čitelné texty, které ovšem může analyzovat metodami používanými primárně KL. Některé stylisty ovšem zajímá výzkum stylu určitého žánru, a pak přijdou ke slovu právě korpusy. (často žurnalistický styl). Stylistika předpokládá, že autor vybírá z jazykových prostředků. Definice způsobu autorského výběru pak zakládá definici autorského stylu, tj. stupně v němž je výběr prostředků individuálním rysem. To lze zjišťovat kvantitativními metodami, které umožní objektivní srovnání. Korpus je pak srovnávací bází. Druhou oblastí, v níž se ve stylistice uplatní korpusy, je srovnání psaného a mluveného jazyka. Zde se nabízí dvě oblasti. Zajímavé je např. srovnat, jak se mluvený jazyk prezentuje v psaných textech – přímá řeč. Korpusy představují výzvu pro zkoumání jazykové typologie (výzkum žánrů). Vzhledem k tomu, že korpusy zahrnují vzorky variet jazyka vybraných podle kritéria žánru, umožňují expost ověřit charakter typičnosti jazykových jevů pro příslušný žánr. Korpusy a výuka jazyka a jazykovědy Jazyková výuka odráží velmi dobře empirické a racionalistické přístupy jazykovědné teorie, o niž se opírají učební texty a metody. Mnohé učebnice jsou založeny na racionalistickém přístupu a obsahují texty, slovní zásobu, gramatické výklady, opřené o intuice autora. Jiné např. projekt Collins- COBUILD se snaží opřít o korpusy a založit výklady a příklady na skutečném jazykovém materiálu. Korpusy mohou navíc studentům studujícím cizí jazyky pomáhat přímo, jako zdroje, v nichž si mohou přímo hledat a ověřovat fakta, která vzhledem k nedokonalým znalostem jazyka, jenž se učí dobře neznají (lexikum, souvýskyt, obvyklost v rámci žánru atd.). Korpusy se pro mnohé vědce stávají přímým učebním materiálem. Pomáhají autorům učebnic při výběru slovní zásoby (frekvence), výkladu významu (kolokace), výkladu gramatiky atd. Důležité je rovněž využití speciálních korpusů při sestavování učebních materiálů např. pro studenty nelingvisty (mediky, techniky), kteří potřebují zvládnout především jistou oblast jazyka (terminologii, odbornou frazeologii, pasivní zvládání jazyka – čtení odborných textů atd.). Korpusy se používají nejen pro výuku jazyka , ale i pro výuku lingvistiky. Jednou z oblastí využití korpusů je tzv. computer-assisted language learning. Na základě korpusů se vytvářejí různé softwarové nástroje sloužící k jazykové výuce. Rozšíření vícejazyčných korpusů bude nadále sloužit pro výuku překladatelství a tlumočnictví (výzkum na univerzitě v Bologni – prof. Zanettin – článek v monografii Korpusová lingvistika). Korpusy v diachronní lingvistice Výzkum historických stádií jazyka je založen výhradně na korpusovém přístupu. Mrtvé jazyky a starší stádia vývoje živých jazyků jsou nám přístupny ve formě psaných památek, jejichž inventář je v podstatě omezen a vymezen. Jsou tedy z jistého hlediska reprezentativními korpusy. Je samozřejmě možné, že se někde objeví dosud neobjevený rukopis nebo neznámý nápis, nicméně celá řada problémů spojených se sestavováním synchronních korpusů se v diachronii neobjeví. Otázka reprezentativního korpusu je poněkud jiná. V případě vzorků se používají podobné metody jako při výběru vzorků pro mluvený nebo dialektologický korpus. Roli hrají kritéria jako je doba vzniku a oblast původu vzorku. I u diachronních korpusů platí, že rozsah zvyšuje význam korpusu, nicméně výsledky kvantitativních analýz se musí přijímat s větší opatrností, než u korpusů synchronních, protože máme k dispozici „jen to, co se dochovalo“, což nemusí být reprezentativní v tom smyslu, jako to, co si vybereme podle přísných kriterií pro korpus dnešního jazyka. Helsinský korpus DIAKORP Korpusy v dialektologii Dialektologické korpusy umožňují srovnání variet jazyka v jeho geografických varietách. Důležitá je především šíře vzorků po stránce obsahu a rozsahu a míra kompatibility vzorků z různých oblastí. Velký význam má při výzkumu angličtiny existence korpusů britských, amerických, australské a novozélandské angličtiny, popř. korpusy anglických textů z oblastí bývalých kolonií. V oblasti češtiny se uvažuje a projektuje převedení rozsáhlého materiálu dialektologických archívů do počítačově čitelné podoby. O dialektologii lze říci, že jako jazykovědná disciplina pracuje s empirickými daty a že zpracování se zaměřuje na lexikum (primárně), gramatiku (morfologii), ale i např. syntax. Korpusy a psycholingvistika V centru zájmu psycholingvistiky stojí řešení otázek, kterak se produkuje jazyk v mysli. Zaměřuje se na měření takových hodnot, jako např. jak dlouho trvá nalezení hranic syntaktických jednotek při čtení, jak se pohybují oči a jak pracuje mozek. Korpusy v psycholingvistice mohou přispět jako zdroje dat pro laboratorní experimenty. Frekvenční seznamy mohou pomoci k tomu, aby se psycholingvisté neblamovali např. zkoumají-li rychlost rozpoznání slov (u frekventovaných se vyšší rychlost dá předpokládat). Svou roli mohou korpusy sehrát např. při zkoumání výskytu jazykových chyb v běžně mluveném jazyce (kdy je chyba věcí individuální a kdy obecnou, co z toho plyne pro její tolerovanost a tolerovatelnost atd.). Také při výzkumu patologie jazyka hrají korpusy svou roli. Teprve poté, co jsou sestaveny korpusy jazyka tvořeného texty mluvčích s abnormalitami, můžeme postavit hypotézy o tom, jak u nich jazykové tvoření vlastně funguje. Korpusy a kulturní studia V lingvistice se dnes obecně má za to, že sociální podmínky ovlivňují charakter jazykových projevů. Vliv sociálních faktorů na volbu jazykových prostředků je oblast, kde se lingvistika stýká s oborem zvaným kulturní studia. Zmiňuji studii srovnávající americkou a anglickou angličtinu, která na základě analýzy frekvence slovní zásoby došla k závěru, že Amerika je společnost maskulinní, militaristická, má větší vztah k mobilitě, kdežto britská společnost je femininní, mírná, stabilní. Korpusy a sociální psychologie Lingvisté nejsou jedinými uživateli korpusů. Korpus může představovat zdroj poznatků i pro odborníky z jiných oblastí. Pole výzkumu se díky korpusům se otvírá např. pro odborníky zkoumající sociální psychologii. Korpusy obsahují přirozená naturalistická data, která není možné získat v laboratoři. Jedno z otázek, které patří do oblasti sociální psychologie je otázka jak a proč lidé vysvětlují některé věci. Projekt, který v roce 1987 Antaki a Naji provedli na London-Lund korpusu mluvené angličtiny se zaměřil právě na řešení tohoto problému a sice tak, že hledal výskyty textů následujících po příčinných a důsledkových spojkách. Závěr Na závěr bych chtěla shrnout čtyři výhody, které jsou společné korpusu a které z něj činí výhodnou bázi pro výzkum ve všech odvětvích výzkumu, o nichž jsme dnes hovořili. 1. Vzorkování a kvantitativní požadavky kladené na materiál korpusu z něj činí spolehlivou bázi pro generalizaci výsledků analýz. 2. Snadný přístup a počítačové zpracování urychlují získání dat všeho druhu. 3. Anotace poskytují data obohacená o informace, které by jinak bylo třeba pracně dodávat a dále s nimi pracovat. 4. Korpusy obsahují přirozená data (naturalistická data), neovlivněná laboratorními podmínkami, což zvyšuje objektivitu výsledků – nezávislost.