Korpusová lingvistika – 1 Úvod – korpus a korpusová lingvistika, základní pojmy Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Organizace • CJBB105 Korpusová lingvistika – přednáška • PRZA009 Korpusová lingvistika • Počítačová lingvistika, Český jazyk a literatura • Překladatelství románských a germánských jazyků • zakončení – zkouška – test, volné odpovědi • přednáška, částečně praktické ukázky • prezentace z přednášek ve studijních materiálech IS • CJBB75 Základy využití korpusů (pro praxi) • CJBB84 Morfologie a korpus • PLIN032 Gramatika a korpus • Korpusový workshop v Praze Osnova • Úvod – korpus a korpusová lingvistika, základní pojmy • Vývoj korpusové lingvistiky • Typy korpusů, české korpusy (ČNK) • Budování korpusů, reprezentativnost • Korpusové manažery • Morfologické a syntaktické značkování • Využívání korpusů • Časopisy, konference, publikace • Praktická část Doporučená literatura • Čermák, F. Korpus a korpusová lingvistika. Praha: Nakladatelství Karolinum, 2017. • Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a Petkevič, V. (eds.). Praha: Karolinum, 2000. • Kennedy, G. An Introduction to Corpus Linguistics. London, New York: Routlege, 1998 (hardback 2016). • McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press, 1996. • McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012. • http://korpus.cz – Český národní korpus • http://wiki.korpus.cz – výklad termínů • NESČ https://www.czechency.org/ Instituce v ČR • Ústav Českého národního korpusu FF UK • Ústav teoretické a komputační lingvistiky FF UK • Ústav formální a aplikované lingvistiky MFF UK • Ústav pro jazyk český AV ČR • Centrum zpracování přirozeného jazyka FI MU • Ústav českého jazyka FF MU Korpusová lingvistika • vymezení v systému věd • průnik humanitních (lingvistika) a přírodních (matematika, informatika) věd – studium přirozeného jazyka s využitím metod přírodních věd • dostatečné množství autentických jazykových dat • empirie, observace (x introspekce) • objektivita a evidence • opakovaný experiment • počítače a software Korpusová lingvistika • užší vymezení – vztah k NLP • lingvistika, matematika a informatika • počítačová lingvistika – počítačové zpracování přirozeného jazyka, Natural Language Processing – NLP • korpusová lingvistika • vymezení v rámci lingvistiky • samostatný obor – přístup corpus-driven, výzkum korpusem řízený – reformulování introspekcí stanovené hypotézy • metodologie pro všechny části lingvistiky – přístup corpus-based, výzkum korpusem ověřovaný – exemplifikace hypotézy, hledání dokladů) • poskytuje zdroj jazykových dat Co je to korpus Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednotném formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy, zejména slova a slovní spojení. Korpus zobrazuje jazykové jevy v jejich přirozeném kontextu, a umožňuje tak vytvářet na reálných datech podložený jazykový výzkum v rozsahu, který byl dříve nemyslitelný. http://wiki.korpus.cz/doku.php/pojmy:korpus Co je to korpus Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15–38. Elektronický text v korpusu • lineární řetězec znaků – psaný a mluvený • jednotný kód (Unicode – UTF-8) a formát (txt) • autentičnost – data se neupravují, korpus je deskriptivní – „Korpusová data jsou posvátná.“ (F. Čermák) • etický kodex • autorská práva Co je to korpus – shrnutí • elektronický soubor textů (rozsáhlý) • autentické texty, slova v přirozeném kontextu – konkordance • sjednocené texty – strojově čitelný formát, machine readable format/MRF – jednotné kódování • označkovaná data (přidané informace) • reprezentativní vůči svému účelu Jak korpus vypadá uvnitř • vertikál (vertikální text) • token (tokenizace) – řetězec znaků ohraničený z obou stran mezerami • type (word, slovní tvar n. lemma) • token – type – token-type ratio, type/token – vysoké číslo = bohatost slovníku – nízké číslo = velké opakování slov • pro uživatele – korpusové manažery • konkordance, KWIC (key word in context) 2 3 Pro 4 představu 5 6 , 7 jakým 8 přívětivým 9 místem 10 byl 11 Americký 12 park 13 v 14 minulosti 15 16 , 17 uvádíme 18 několik 19 historických 20 fotografií 21 22 . 23 Obsah a rozsah korpusu • typ komunikace – korpusy psané, mluvené, multimodální • obsah – typy textů – beletrie, odborné texty, publicistické texty – texty z internetu – soukromá korespondence – přepisy mluvených nahrávek – texty zahraničních studentů češtiny (žákovské korpusy) • vyváženost (poměr kategorií) Obsah a rozsah korpusu • rozsah – velikost korpusu – počet tokenů – počet slov (type, word) • opravdu velké korpusy (web jako korpus, webové korpusy – několik miliard pozic) – frekvenční studie • malé specializované korpusy (stovky tisíc pozic, jednotky milionů) Obsah a rozsah korpusu • celé texty • vzorky (sampling) – vybraná část textu • rozsah – vymezený rozsah, uzavřený (předem stanoven) - referenční – otevřený/monitorovací korpus (plynule se zvětšuje) – nereferenční – korpus, který se pravidelně obnovuje a zvětšuje – verzovaný (verze se číslují) Značkování korpusu • značkování – zvyšuje informační hodnotu korpusu (vždy nutná dostupná interpretace značek = tagset) • vnitřní značkování (vnitrotextové) – strukturní atributy (opus, doc, s) – morfologické značky – poziční atributy (word, lemma, tag) • vnější značkování, (vnětextové) – na úrovni textu, metatextové informace (autor, název díla, rok vydání atd.) Hlavní rysy korpusu • aneb čím se korpus liší od webu nebo elektronického archivu 1. elektronické texty v jednotném formátu 2. značkování 3. zobrazení konkordancí v korpusových manažerech 4. vymezený obsah a rozsah