CJBB105-7 Využívání korpusů Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Využívání korpusů • stále ve vývoji, možnosti využití se neustále rozšiřují - vyvíjí se metodologie budování korpusů - vyvíjí se metodologie vytěžování korpusů (vytěžování = získávání informací o jazyce) - vyvíjí se technologie a aplikace spojené s korpusy - vznikají nové typy korpusů - stálejšou poměrně málo prozkoumané mluvené korpusy • i miliardové korpusy stále poskytují pouze vzorek užívání jazyka - jazykové jevy mohou existovat i mimo korpusy - korpusy jsou deskriptívni (popisují, jak se jazyk užívá, a to převážně v psané podobě) Využívání korpusů Jazyková data jsou potřeba hlavně: • v lingvistice — synchronní i diachrónni studie — frekvenční studie — jazyky v kontrastu (paralelní a srovnatelné korpusy) — lexikografie • v NLP (Natural Language Processing, počítačové zpracování přirozeného jazyka) a v počítačové lingvistice • okrajově mimo tyto dvě oblasti Využití korpusů v lingvistice • analýzy jsou založeny na důsledném využívání jazykových dat pro popis jazyka • korpusy způsobily zvrat v lingvistice - poskytují velké množství reálných jazykových dat - rozvíjí exaktní přístup k jazyku - tento přístup je možný až díky počítačům (hardwaru i softwaru) • v korpusové lingvistice je jazykový materiál: 1. odrazem skutečného užívání jazyka 2. aktuální (v daném časovém období) 3. objektivní (vyváženost, reprezentativnost) 4. dostatečný (velikost) 5. lehce přístupný (korpusové manažery) Využití korpusů v lingvistice • velké korpusy jsou pro výzkum dostatečně reprezentativním vzorkem jazyka - výskyty jevů a jejich frekvence nejsou náhoda - platí i pro miliardové webové korpusy které nejsou vyvážené 9 kvantitativní analýza - důležitý je počet výskytů (typické a okrajové jevy variabilita jazyka) - nutná lingvistická interpretace výsledků (co zjištěná čísla vypovídají o jazyce) 9 kvalitativní analýza - nezávisí na počtu výskytů (i málo frekventované jevy jsou důležité, např. hapax legomena a výzkum jazykové periferie) - malá data - zkoumáme obsah, ne rozsah Čermák, F. Periferie jazyka-Slovník monokolokabilních slov. Praha: NLN, 2014. Cvrček, V. Kvantitativní analýza kontextu. Praha: NLN, 2013. Přístupy k využívání korpusů • corpus-based (korpusem ověřovaný) přístup - ověřování stávajících teorií (založených na introspekci a několika příkladech) - od hypotézy ke konkrétním dokladům - např. doložení existence variantních koncovek u substantiv, posouzení jejich frekvence • corpus-driven (korpusem řízený) přístup - průzkum korpusového materiálu, tvorba nových jazykových teorií (nebo úprava stávajících) - od konkrétního dokladu k hypotéze - napr výzkum aktuálních kolokací Kvantitativní a kvalitativní analýza • využívá frekvenci, statistiku, pravděpodobnost • využívá řetězec/token a jeho kombinace — výzkum tvarů slov, kolokací, valence • bigramy, trigramy, n-gramy (shluky slov vyskytujících se vedle sebe v kontextu) — výzkum kolokací, termínů apod. • využívá vložené lingvistické informace -morfologické značky • je vždy důležitá následná interpretace výsledků (co zjištěné údaje znamenají) Frekvenční studie • je možné zkoumat frekvenci slov, slovních tvarů, slovních spojení, slovních druhů, slovních segmentů (slabiky, kmeny, sufixy, koncovky), hlásek, znaků (interpunkce) • vznikají frekvenční slovníky (pro češtinu první Těšitelova -1961); na korpusu založený Frekvenční slovník češtiny-2004 • výzkum variant (aplikace SyD) - např. pravopisné (filozofie/filosofie), tvarové (kopu/kopám), stylové (pořád/furt) • lexikológie - míra pronikání cizí slovní zásoby, proces počešťování slov, frekvence přejatých slov a jejich různých variant - byznis, byznys, biznis, biznys ■ J " Statistiky CeSt lny ců-.im II-.". S05SS 3 r L LftMl ^ ■nu. rí ■ W I FREKVENČNÍ SLOVNÍK C E S T I ?i Y Bartoň, T. a kol. Statistiky češtiny. Praha: NLN, 2009. Čermák, F. - Křen, M. (eds.) Frekvenční slovník češtiny. Praha: NLN, 2004. Další studie • stylistická pozorování - typická slova v určitých typech textů (široké využití) - klíčová slova a témata v textu (KWords, Klíčová slova v SkE, https://nlp.fi.muni.cz/proiekty/topicks) - určování sociolingvistických charakteristik (u mluvených korpusů) - projevy emocí v jazyce (perspektivní oblast, zajímá komerční subjekty, např. hodnocení zboží v e-shopu) - určování autorství a forenzní lingvistika (založeno mj. na stylových rysech typických pro jednoho autora) • výuka jazyka pro cizince (slovníky, slova v kontextech) • akvizice jazyka (korpusy dětského jazyka, výukové korpusy, značkování chyb) • výzkum terminologie • korpus jako obraz společnosti (reálie, společenská situace, která se odráží v jazyce), Schmiedtová Věra: Malý slovník reálií komunistické totality, 2013 Počítačová (korpusová) lexikografie • od počátků je vznik korpusů spojen s tvorbou slovníků a gramatik • výběr slovníkových hesel (lemmat) na základě frekvence v korpusu, hranice min. počtu výskytů (jakou frekvenci musí slovo mít, aby se dostalo do slovníku) • určování významů slov na základě jejich kontextu (např. u homonym, jiný význam - jiný kontext) • reálné příklady užití slov (nemusí se vymýšlet) - konkordance (KWIC) • kolokace, frazeologismy, thesaury, Word Sketch • metadata - časová datace slovního výskytu, typ textu, autor apod. • u elektronických slovníků možnost aktualizace dat Počítačová (korpusová) lexikografie * formát slovníku - využívají se značkovací jazyky pro popis struktury slovníkového hesla - vysoká konzistence slovníku (struktura je stejná u všech hesel) - starší jazyk SGML (Standard Generalized Markup Language) - současný jazyk XML (eXtensible Markup Language) • DTD (Document Type Definition) - definice atributů textu • počáteční a ukončovací značky, např. • lexikografické stanice - modulární dělení práce, online zpracování slovníku několika lexikografy, každý má na starost jednu část struktury hesla (definice, gramatika, příklady, frazeologismy atd.), dříve dělení hesel mezi autory podle abecedy terorismus [-iz-] (dř. též -ism), -mu m. (z lat.) způsob vlády vymáhající terorem poslušnost; hrôzovláda, krutovláda, despotismus: vojenský t.; nesnesitelný t.; demagogie a t.; přen. expr. to je t., nedejte si to líbit terorismus způsob vlády vymáhající terorem poslušnost hrůzovláda krutovláda despotismus vojenský terorismus nesnesitelný terorismus demagogie a terorismus přen.expr. to je terorismus, nedejte si to líbit Ukázka zkráceného zápisu slovníkového hesla v XML Využití korpusů - popis rovin jazyka • fonetika, fonologie - pokud jsou charakteristiky značkovány (ORTOFON) • morfologie - tagging, frekvence tagů • slovotvorba - slovotvorné segmenty, derivace, funkční zatížení prefixů/sufixů (Morfio) • syntax - syntaktická analýza, nominální a verbální fráze, koreferenční vztahy, aktuální větné členění • sémantika - odvození významu na základě kontextu • vývoj jazyka - diachrónni korpusy • multiword expression (MWE, víceslovné jednotky) a jejich značkování - Karel IV., corpus delicti Využití korpusů v NLP tvorba nových nástrojů a aplikací pro výzkum jazyka, minimalizace ručního hledání strojové učení (systém se učí na vzorovém korpusu) strojový překlad (založen na strojovém učení) rozpoznávania syntéza řeči (přepis řeči na text, převod textu na řeč, strojové učení) dialogové systémy (komunikace člověka s počítačem, chatboty, asistenti v mobilech, např. Siri) určování autorství analýza emocí extrakce informací z textu, pojmenované entity -automatické určování významů částí textu Další využití korpusů • toto využití je spíše potenciální, není příliš rozšířené, ale je možné - výuka češtiny na ZŠ a SŠ (korpusy SYNEK a LITERA, 2001) - Smejkalová M., Kopřivová M.: Jazykové korpusy a elektronické zdroje ve výuce českého jazyka. Praha, Univerzita Karlova, Pedagogická fakulta, 2019. - výuka češtiny pro cizince (žákovské korpusy) • literární věda - kritici a teoretici - autorské korpusy (Karla Čapka, Jana Čepa) • sociologie (sociolingvistika), psychologie (psycholingvistika) - mluvené korpusy • neurologie (akvizice jazyka) - výzkum jazyka pacientů s afázií • tvůrčí profese - spisovatelé, básníci, textaři, žurnalisté, tvůrci reklam - mohou se v korpusech inspirovat