CJDSL001 Korpusová lingvistika (1) Klára Osolsobě osolsobe@phil.muni.cz Experimentální a počítačová lingvistika DO1 1 O čem budeme mluvit •Krátký historický exkurz •Definice korpusu v moderním slova smyslu •Dva metodologické přístupy k vytěžování korpusu •Dva pohledy na korpus (lingvista a informatik) •Filologie a korpusy •Výuka jazyků a korpusy DO1 2 Krátký historický exkurz •Myšlenka korpusu •Korpusová lingvistika – empirická disciplína •Data a introspekce •Technický pokrok DO1 3 Konkordance – KWIC(Key Word In Context) DO1 4 PSJČ DO1 5 Konkordance – KWIC(Key Word In Context) https://www.korpus.cz/kontext/view?maincorp=syn2015&viewmode=kwic&pagesize=40&attrs=word%2Clemma_ lc%2Ctag&attr_vmode=visible-kwic&base_viewattr=word&structs=doc&refs=%3Ddoc.title&q=~twWA0sqO4muC DO1 6 Seznam lemmat v kolokaci <1,1> vpravo od KWIC DO1 7 Slovní profil DO1 8 SEU (SURVEY OF ENGLISH USAGE) DO1 9 BROWN CORPUS W. Nelson Francis - Henry Kucera •1964 •1. elektronicky zpracovaný korpus •1 milion slovních tvarů •britská a americká angličtina •pečlivý výběr textů •vzorky DO1 10 Definice korpusu v moderním slova smyslu •Elektronické uložení •Elektronická přístupnost •Definovaný obsah (ČEHO) a rozsah (KOLIK) •Standardní anotace – metada a interpretace jazykových jednotek •Rychlost, spolehlivost a opakovatelnost vyhledávání a kvantifikace nalezeného DO1 11 Dva metodologické přístupy k vytěžování korpusu •Corpus based / korpusem ověřovaný, na korpusu založený výzkum •Pravidlo/výjimka – otevřený/uzavřený seznam, frekvence •Corpus driven / korpusem inspirovaný výzkum, korpusem řízený výzkum •Výzkum kolokací /lexical bundles DO1 12 Maskulina mají v češtině v gen. pl. koncovku –ů (pánů, hradů, mužů, strojů, předsedů, soudců). Z tohoto pravidla existují výjimky. Které? Kolik? [lc!=".*ů" & tag="NN[MI]P2.*"] DO1 13 Jaké je mínění o Češích? Kolokace na pozici 1-3 vpravo od KWIC <Češi jsou> seřazené podle míry MI-score DO1 14 Češi jsou národem … DO1 15 SketchEngine (učo+sekundární heslo) DO1 16 SketchEngine •Nástroj disponuje dalšími funkcemi zpracování jednotek (slovních tvarů/lemmat) v korpusech •Slovní profily (wordsketches) – gramatická kombinovatelnost slov •Zobrazování slov na základě podobností ve výskytu (thesaurus) DO1 17 Funkce Word Sketch •Umožňuje vytvářet vizualizace frekvenčně uspořádaných gramaticky definovaných relací, do kterých vstupuje klíčové slovo v daném korpusu •Nástroj má zabudována pravidla parciální syntaktické analýzy založené na morfologických značkách •Tak například na základě toho, že se v bezprostředním levém kontextu substantiva vyskytuje adjektivum, které se shoduje se substantivem v relevantních gramatických kategoriích, je vytvořen seznam a_modifier (adjektivních modifikátorů) typických (s relevantí frekvencí) pro klíčové substantivum) DO1 18 Word sketch latina DO1 19 Co překvapí a proč se objeví? DO1 20 Zrada v podobě homonymie (paronymie) jazz/tancovat/tačit DO1 21 Funkce Thesaurus (zobrazení podobných slov) •Na základě porovnání kontextů je vytvořen seznam a vizualizace slov, která mají podobné (gramaticko-lexikální) kontexty DO1 22 Sketch rozdíl (vizualizace kontextu dvojice): čeština/latina •Společné kontexty • Kontexty typické pro každý člen dvojice DO1 23 Vyzkoušejte •Pomocí korpus based výzkumu potvrďte/vyvraťte tvrzení, že tvar tzv. l-ového příčeští maskulina singuláru v češtině musí končit na –l. •Pomocí introspekce sestavte seznam spojení adjektivum červený+ substantivum takové, že jde o termín. Pomocí rozhraní Sketch Engine vytvořte slovní profil adjektiva červený apodívejte se, která spojení jste si vybavili a na která jste zapomněli. •Jaká adjektiva si vybavíte, když se řekne stísněný? Pomocí rozhraní Sketch Engine a funkce Thesaurus vytvořte seznam/ word cloud takových adjektiv vygenerovaných z korpusu czTenTen17 a porovne jej opět s tím, který jste získali pomocí introspekce. •Zamyslete se, které substantivum lze rozvíjet adjektivem stísněný a které nelze rozvíjet adjektivem přeplněný a naopak. Podívejte se na Word Sketch Difference (nouns modified by "stísněný/přeplněný") a porovnejte introspekci s daty získanými z korpusů. DO1 24 Vyzkoušejte •Definujte význam substantiva vařič. Pomocí nástroje kolokace ověřte úplnost definice. • Slovotvorný význam slov jako snoubič, hořčák, sněhule, voláč porovnejte s významem lexikálním - použijte korpus. • Při vyhledávání v korpusech pracujeme se zadáním formálních požadavků, které hledané slovo musí splňovat. Mnohdy ovšem narážíme na to, že forma, kterou hledáme je víceznačná (problém homonymie). Tak např. slova datel a skladatel končí stejně, ale jinak nemají mnoho společného. Přesto nejsme vždy odkázáni na ruční třídění dat. Česká příjmení z l-ových příčestí (Skácel, Přecechtěl, Snášel, ...) mohou končit na el, a přesto lze z gramatických pravidel češtiny dokázat, že nemohou být homonymní s činitelskými jmény derivovanými příponou -tel. Jaká omezení platí pro konsonanty, které mohou předcházet zakončení [eě]l českých sloves? 25 V násedujícím textu vidíme příklad jazykového humoru založeného na homonymii jazykových prostředků: uDalo se předpokládat , že po týhle exekuci už dá pokoj . „ Tak co je , Jíchová , co je . ? Kdybyste laskavě ráčila hejbnout zadkem . Nemáme času nazbyt , musíme ještě probrat Povolží , Podněstří . . . " „ Pozvrací a Poprdí . . . " ozvalo se zezadu . „ Píšu si vás , Joch ! Píšu si vás do třídní knihy ! " zaječela Ema . „ Ale to jsem nebyl já . " „ To mě nezajímá . Řekla jsem , že si vás píšu . 26 Pokuste se odpovědět na následující otázky: Substantivum Porýní vykazuje jistou podobnost s verbálními substantivy typu poznání, podání, pokračování, … Pokud budeme chtít vyhledat pouze verbální substantiva, pak máme k dispozici znalosti o jejich formálních vlastnostech. Které to jsou? Můžeme na základě znalosti formálních vlastností verbálních substantiv substantiva Porýní, Pohroní, Poberouní vyloučit? A jak je na tom Pomohaní? 27 Děkuji vám za pozornost DO1 28