Korpusová lingvistika PLIN059 Mgr. Dana Hlaváčková, Ph.D. Korpusová lingvistika • využívá pro studium jazyka velké soubory elektronických textů • texty odrážejí a dokládají reálné užívání jazyka • korpusy jsou deskriptivní (vs. preskriptivní) • korpusové manažery umožňují data prohlížet a třídit a poskytují statistické údaje 1. podstatná část počítačové lingvistiky – korpusy poskytují zdroj jazykových dat 2. studium jazyka založené na jeho přirozeném kontextovém užívání 3. metodologický přístup ke zkoumání jazyka Jazykový korpus Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15–38. Přednosti korpusů ⚫ velký rozsah s možností dalšího rozšiřování ⚫ jazyková data v přirozené kontextové podobě ⚫ převaha typických jazykových jevů nad okrajovými ⚫ reprezentativní korpus je schopen zachytit variabilitu jazyka ⚫ zrychlení a usnadnění lingvistické práce ⚫ morfologické a syntaktické značkování korpusů zvyšuje jejich informační hodnotu Náměstí republiky je přímo jejich skanzenem . Průčelí je tvořeno divadlem Antonína Balšánka , vystavěno bylo v letech 1906 až 1909 . Základní pojmy ⚫ token, pozice – řetězec znaků oddělený z obou stran mezerami ⚫ tokenizace – proces rozdělení textu na tokeny ⚫ vertikál – textový soubor (.vert), ve kterém je text rozdělen na tokeny ⚫ strukturní značky – např. hranice dokumentů a vět ⚫ korpusový prohlížeč, korpusový manažer (Bonito, Bonito2, Sketch Engine, KonText) ⚫ atributy – prvky, které lze hledat v korpusu (word, phrase, …) konkordance, konkordanční řádek, konkordanční seznam KWIC – key word in context (hledaný výraz v korpusu) Typy korpusů ⚫ druh zachycené komunikace ⚫ psané (written corpora) ⚫ mluvené (spoken corpora) ⚫ časový záběr ⚫ diachronní ⚫ synchronní ⚫ účel ⚫ všeobecné ⚫ specializované • způsob vytvoření • tradiční • webové ⚫ jazyk ⚫ jednojazyčné ⚫ paralelní ⚫ srovnatelné ⚫ možnost rozšíření ⚫ uzavřené (referenční) ⚫ otevřené (nereferenční) ⚫ značkování ⚫ tagging (POS tagging, morfologie) ⚫ parsing (syntax, treebank) ⚫ alignment (párování) Reprezentativnost korpusů • v závislosti na účelu korpusu (kvantita a kvalita) ⚫ národní korpusy – obraz užívání jazyka ⚫ malý vzorek vzhledem k celku jazyka, nezobrazuje užití jazyka v celé šíři ⚫ snaha zachytit variabilitu textů (beletrie, odborné, publicistika) SYN2000 SYN2005, SYN2010 SYN2015 publicistika 60 % 33 % 33,33 % odborná lit. 25 % 27 % 33,33 % beletrie 15 % 40 % 33,33 % Tvorba korpusů ⚫ korpusy tradiční a webové ⚫ sběr dat ⚫ poskytovatelé textů ⚫ webové korpusy – stahování textů (crawler) ⚫ sjednocení formátu a kódování ⚫ odstranění netextového obsahu (boilerplate) ⚫ odstranění duplicitních textů (webové korpusy) ⚫ interní anotace ⚫ tokenizace (vertikál) – lemmatizace – externí anotace (značkování) ⚫ mluvené korpusy – nahrávky, přepis, synchronizace textu se zvukem Korpusové manažery v ČR • ÚČNK – ČNK – KonText • http://kontext.korpus.cz • FI MU – Sketch Engine • https://www.sketchengine.eu/ • Český národní korpus • https://www.korpus.cz/