Korpusová lingvistika PLIN059 Mgr. Dana Hlaváčková, Ph.D. Mgr. Jakub Machura, Ph.D. Korpusová lingvistika •využívá pro studium jazyka velké soubory elektronických textů •texty odrážejí a dokládají reálné užívání jazyka •korpusy jsou deskriptivní (vs. preskriptivní) •korpusové manažery umožňují data prohlížet a třídit a poskytují statistické údaje 1.podstatná část počítačové lingvistiky – korpusy poskytují zdroj jazykových dat 2.studium jazyka založené na jeho přirozeném kontextovém užívání 3.metodologický přístup ke zkoumání jazyka Jazykový korpus Rozsáhlý soubor elektronicky uložených jazykových dat, obvykle označkovaný, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž je také považován za reprezentativní. Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15–38. Přednosti korpusů lvelký rozsah s možností dalšího rozšiřování ljazyková data v přirozené kontextové podobě lpřevaha typických jazykových jevů nad okrajovými lreprezentativní korpus je schopen zachytit variabilitu jazyka lzrychlení a usnadnění lingvistické práce lmorfologické a syntaktické značkování korpusů zvyšuje jejich informační hodnotu Náměstí republiky je přímo jejich skanzenem . Průčelí je tvořeno divadlem Antonína Balšánka , vystavěno bylo v letech 1906 až 1909 . Základní pojmy ltoken, pozice – řetězec znaků oddělený z obou stran mezerami ltokenizace – proces rozdělení textu na tokeny lvertikál – textový soubor (.vert), ve kterém je text rozdělen na tokeny lstrukturní značky (atributy) – např. hranice dokumentů a vět lkorpusový prohlížeč, korpusový manažer (Bonito, Bonito2, Sketch Engine, KonText) lpoziční atributy – prvky, které lze hledat v korpusu (word, phrase, …) konkordance, konkordanční řádek, konkordanční seznam KWIC – key word in context (hledaný výraz v korpusu) ZÁKLADNÍ POJMY lpoziční atributy – informace přidané k tokenům, prvky, které lze hledat v korpusu (word, lemma, tag, lc, pos) lstrukturní značky – např. hranice dokumentů a vět llemma – základní slovní tvar llemmatizace – přiřazení základního slovního tvaru ltag – morfologická značka ltagset – soubor morfologických značek lregulární výrazy – speciální znaky umožňující efektivní hledání v korpusu DVA PŘÍSTUPY KE ZKOUMÁNÍ JAZYKA lraná „korpusová“ lingvistika – „korpusový“ přístup k jazykovému materiálu, dostatečně velký soubor přirozeně se vyskytujících jazykových dat (konec 19. st. – 50. léta 20. st.)‏ lpředěl (50. léta 20. st.) – N. Chomsky a generativní lingvistika lod 2. pol. 20. st. empirický přístup, observace x intuice a introspekce Ch. Fillmore: „I don‘t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore … [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn‘t imagine finding out any other way. My conclusion is that the two types of linguists need one another.“ KORPUSOVÁ LINGVISTIKA V ČR lLexikální archiv ÚJČ, od r. 1911, 12 mil. ručně psaných lístků l1988 Iniciativní skupina pro přípravu počítačových korpusů, textů a slovníků (sdružení lingvistů, matematiků a programátorů)‏ l1991 Počítačový fond češtiny – projekt lexikografického počítačového korpusu a tezauru češtiny (Čermák, Sgall, Pala, Hajič, Hajičová, Králík, Schmiedtová, Kučera, Benko) ‏ l1994 založení ÚČNK Typy korpusů ldruh zachycené komunikace lpsané (written corpora) lmluvené (spoken corpora)‏ lčasový záběr ldiachronní lsynchronní lúčel lvšeobecné lspecializované •způsob vytvoření •tradiční •webové ljazyk ljednojazyčné lparalelní lsrovnatelné lmožnost rozšíření luzavřené (referenční) lotevřené (nereferenční) lznačkování ltagging (POS tagging, morfologie) lparsing (syntax, treebank) lalignment (párování)‏ Reprezentativnost korpusů •v závislosti na účelu korpusu (kvantita a kvalita)‏ lnárodní korpusy – obraz užívání jazyka lmalý vzorek vzhledem k celku jazyka, nezobrazuje užití jazyka v celé šíři lsnaha zachytit variabilitu textů (beletrie, odborné, publicistika) SYN2000 SYN2005, SYN2010 SYN2015 publicistika 60 % 33 % 33,33 % odborná lit. 25 % 27 % 33,33 % beletrie 15 % 40 % 33,33 % Tvorba korpusů lkorpusy tradiční a webové lsběr dat lposkytovatelé textů lwebové korpusy – stahování textů (crawler) lsjednocení formátu a kódování lodstranění netextového obsahu (boilerplate) lodstranění duplicitních textů (webové korpusy) linterní anotace ltokenizace (vertikál) – lemmatizace – externí anotace (značkování) lmluvené korpusy – nahrávky, přepis, synchronizace textu se zvukem Korpusové manažery v ČR •ÚČNK – ČNK – KonText •http://kontext.korpus.cz •FI MU – Sketch Engine •https://www.sketchengine.eu/ •Český národní korpus •https://www.korpus.cz/ • • Hesla v NESČ • •Korpus •Korpus a jeho příprava •Typy korpusů • •