KORPUSOVÁ LINGVISTIKA
Dana Hlaváčková
JAZYKOVÝ KORPUS
Rozsáhlý soubor elektronicky uložených jazykových
dat, obvykle označkovaný, organizovaný se zřetelem
k využití pro určitý cíl, vůči němuž je také považován
za reprezentativní.
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie z korpusové
lingvistiky. Praha: Karolinum, 2000, s. 15–38.
KORPUSOVÁ LINGVISTIKA
 podstatná část počítačové lingvistiky – korpusy
poskytují zdroj jazykových dat
 studium jazyka založené na jeho přirozeném
kontextovém užívání
 metodologický přístup ke zkoumání jazyka
PŘEDNOSTI KORPUSŮ
 velký rozsah s možností dalšího rozšiřování
 jazyková data v přirozené kontextové podobě
 převaha typických jazykových jevů nad okrajovými
 reprezentativní korpus je schopen zachytit variabilitu
jazyka
 zrychlení a usnadnění lingvistické práce
ZÁKLADNÍ POJMY
 textové slovo, pozice, token – řetězec znaků oddělený
z obou stran mezerami
 tokenizace – proces rozdělení textu na tokeny
 korpusový prohlížeč, korpusový manažer (Bonito,
Bonito2, Sketch Engine, KonText)
 konkordance, konkordanční řádek, konkordanční seznam
 KWIC – key word in context (hledaný výraz v korpusu)
ZÁKLADNÍ POJMY
 lemma – základní slovní tvar
 lemmatizace – přiřazení základního slovního tvaru
 atributy – prvky, které lze hledat v korpusu (word, lemma,
tag, lc, pos)
 strukturní značky – hranice dokumentů a vět
 tag – morfologická značka
 tagset – soubor morfologických značek
 regulární výrazy – speciální znaky umožňující efektivní
hledání v korpusu
TYPY KORPUSŮ
 druh zachycené komunikace – psané (written corpora)
– mluvené (spoken corpora)
 časový záběr – diachronní
– synchronní
 účel – všeobecné
– specializované
 jazyk – jednojazyčné
– paralelní
 možnost rozšíření – uzavřené (referenční)
– otevřené (nereferenční)
 značkování – tagging (POS tagging, morfologie)
– parsing (syntax, treebank)
– alignment (párování)
REPREZENTATIVNOST KORPUSŮ
Relativní
 v závislosti na účelu korpusu (kvantita x kvalita)
 malý vzorek vzhledem k celku jazyka
 nezobrazuje reálné užití jazyka
 snaha zachytit variabilitu textů
SYN2000 SYN2005, SYN2010
denní tisk / 60 % publicistika / 33 %
naučná literatura / 25 % odborná literatura / 27 %
krásná literatura / 15 % beletrie / 40 %
TVORBA KORPUSŮ
 sběr dat – sjednocení formátu – externí anotace
 tokenizace (vertikál) – lemmatizace – značkování
 Corpus Architect, WebBootCat
 jusText – odstranění netextového obsahu, boilerplate
 Onion – odstranění duplicitních textů
 Chared – detekce kódování
 mluvené korpusy – nahrávky, přepis, synchronizace
textu se zvukem