CJDSL001 Korpusová lingvistika (1) Klára Osolsobě osolsobe@phil.muni.cz Experimentální a počítačová lingvistika DO1 1 O čem budeme mluvit •Krátký historický exkurz •Definice korpusu v moderním slova smyslu •Dva metodologické přístupy k vytěžování korpusu •Dva pohledy na korpus (lingvista a informatik) •Filologie a korpusy •Výuka jazyků a korpusy DO1 2 Krátký historický exkurz •Myšlenka korpusu •Korpusová lingvistika – empirická disciplína •Data a introspekce •Technický pokrok DO1 3 Konkordance – KWIC(Key Word In Context) DO1 4 PSJČ DO1 5 SEU (SURVEY OF ENGLISH USAGE) DO1 6 BROWN CORPUS W. Nelson Francis - Henry Kucera •1964 •1. elektronicky zpracovaný korpus •1 milion slovních tvarů •britská a americká angličtina •pečlivý výběr textů •vzorky DO1 7 Definice korpusu v moderním slova smyslu •Elektronické uložení •Elektronická přístupnost •Definovaný obsah (ČEHO) a rozsah (KOLIK) •Standardní anotace – metada a interpretace jazykových jednotek •Rychlost, spolehlivost a opakovatelnost vyhledávání a kvantifikace nalezeného DO1 8 Dva metodologické přístupy k vytěžování korpusu •Corpus based / korpusem ověřovaný, na korpusu založený výzkum •Pravidlo/výjimka – otevřený/uzavřený seznam, frekvence •Corpus driven / korpusem inspirovaný výzkum, korpusem řízený výzkum •Výzkum kolokací /lexical bundles • DO1 9 Maskulina mají v češtině v gen. pl. koncovku –ů (pánů, hradů, mužů, strojů, předsedů, soudců). Z tohoto pravidla existují výjimky. Které? Kolik? [lc!=".*ů" & tag="NN[MI]P2.*"] DO1 10 Jaké je mínění o Češích? Kolokace na pozici 1-3 vpravo od KWIC <Češi jsou> seřazené podle míry MI-score DO1 11 Češi jsou národem … DO1 12 SketchEngine (učo+sekundární heslo) DO1 13 SketchEngine •Nástroj disponuje dalšími funkcemi zpracování jednotek (slovních tvarů/lemmat) v korpusech •Slovní profily (wordsketches) – gramatická kombinovatelnost slov •Zobrazování slov na základě podobností ve výskytu (thesaurus) • DO1 14 Funkce Word Sketch •Umožňuje vytvářet vizualizace frekvenčně uspořádaných gramaticky definovaných relací, do kterých vstupuje klíčové slovo v daném korpusu •Nástroj má zabudována pravidla parciální syntaktické analýzy založené na morfologických značkách •Tak například na základě toho, že se v bezprostředním levém kontextu substantiva vyskytuje adjektivum, které se shoduje se substantivem v relevantních gramatických kategoriích, je vytvořen seznam a_modifier (adjektivních modifikátorů) typických (s relevantí frekvencí) pro klíčové substantivum) DO1 15 Word sketch latina DO1 16 Zrada v podobě homonymie (paronymie) jazz/tancovat/tačit DO1 17 Funkce Thesaurus (zobrazení podobných slov) •Na základě porovnání kontextů je vytvořen seznam a vizualizace slov, která mají podobné (gramaticko-lexikální) kontexty • DO1 18 Sketch rozdíl (vizualizace kontextu dvojice): čeština/latina •Společné kontexty (bíle) • Kontexty typické pro každý •člen dvojice (zeleně •a červeně podbarvené) • DO1 19 Dva pohledy na korpus (lingvista a informatik) •Nástroje NLP a korpusy •Konverzní programy, vertikál, tokenizér •Korpusové manažery •Automatické analyzátory •Lingvistické interpretace v korpusech DO1 20 Vyhledání slovního tvaru jít DO1 21 Vyhledání lemmatu jít (KWIC+lemma+tag) DO1 22 desambiguace •Pánové, nežeňte se •Nemluv a rožni. •Jan je osel. DO1 23 Víceznačné tvary •nežeňte/(ne)hnat/V •nežeňte/(ne)ženit/V •se/se/P •se/s/R •rožni/rožnit/V •rožni/rozžehnout/V •rožni/rožeň/N •je/být/V •je/on/P •osel/osel/N •osel/osít/V DO1 24 hnát/ženit DO1 25 být/on DO1 26 rožeň/rožnit/rozžehnout DO1 27 Filologie a korpusy •Obecné a specializované korpusy •Příklady z českého prostředí •Tvorba vlastního korpusu DO1 28 ÚČNK http://ucnk.ff.cuni.cz/cs/ •akademický projekt 1994 •systematicky mapuje češtinu i další jazyky •po bezplatné registraci otevřeny všem zájemcům DO1 29 Korpusy ÚČNK https://kontext.korpus.cz/first_form?corpname=omezeni%2Fsyn2015 DO1 30 Specializovaný - příklad •Korpus Jerome je jednojazyčný srovnatelný korpus (monolingual comparable corpus) speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). DO1 31 autorský •Karel Čapek •Bohumil Hrabal •Korespondence Karla Havlíčka Borovského DO1 32 Tvorba vlastního korpusu - DIY •https://nlp.fi.muni.cz/cs/JakVytvoritKorpus1 •https://ske.fi.muni.cz/auth/create_corpus/ • • DO1 33 Výuka jazyků a korpusy •Metoda DDL (Tim Johnes) •Žákovské korpusy (Learner Corpora) •Učebnicové korpusy DO1 34 Žákovské korpusy •Texty mluvčích L2 •Výzkum interlanguage •Zpětná vazba na základě analýzy chyb •Sledování růstu jazykových kompetencí DO1 35 Učebnicový korpus Učko • DO1 36 chodit do/na (porovnání obecného a učebnicového korpusu) DO1 37 Závěr •Historie a současnost – technický pokrok a metodologické přístupy •Rychlost- spolehlivost – opakovatelnost experimentu •Zdroje nespolehlivosti •Co je k dispozici a co si mohu sám udělat •Na co nezbyl čas DO1 38 Děkuji vám za pozornost DO1 39