Korpusová lingvistika – 1
Úvod – korpus a korpusová lingvistika,
základní pojmy
Mgr. Dana Hlaváčková, Ph.D.
CJBB105
PRZA009
Organizace
• CJBB105 Korpusová lingvistika – přednáška
• PRZA009 Korpusová lingvistika
• Počítačová lingvistika, Český jazyk a literatura
• Překladatelství románských a germánských jazyků
• zakončení – zkouška – test, volné odpovědi
• přednáška, částečně praktické ukázky
• prezentace z přednášek ve studijních materiálech IS
• CJBB75 Základy využití korpusů (pro praxi)
• CJBB84 Morfologie a korpus
• PLIN032 Gramatika a korpus
• Korpusový workshop v Praze
Osnova
• Úvod – korpus a korpusová lingvistika, základní
pojmy
• Vývoj korpusové lingvistiky
• Typy korpusů, české korpusy (ČNK)
• Budování korpusů, reprezentativnost
• Korpusové manažery
• Morfologické a syntaktické značkování
• Využívání korpusů
• Časopisy, konference, publikace
• Praktická část
Doporučená literatura
• Čermák, F. Korpus a korpusová lingvistika. Praha:
Nakladatelství Karolinum, 2017.
• Studie z korpusové lingvistiky. Čermák, F., Klímová, J. a
Petkevič, V. (eds.). Praha: Karolinum, 2000.
• Kennedy, G. An Introduction to Corpus Linguistics. London,
New York: Routlege, 1998 (hardback 2016).
• McEnery, T. and Wilson, A. Corpus Linguistics: An Introduction.
Edinburgh: Edinburgh University Press, 1996.
• McEnery, T. and Hardie, A. Corpus Linguistics: Method, Theory
and Practice. Cambridge: Cambridge University Press, 2012.
• http://korpus.cz – Český národní korpus
• http://wiki.korpus.cz – výklad termínů
• NESČ https://www.czechency.org/
Instituce v ČR
• Ústav Českého národního korpusu FF UK
• Ústav teoretické a komputační lingvistiky FF
UK
• Ústav formální a aplikované lingvistiky MFF UK
• Ústav pro jazyk český AV ČR
• Centrum zpracování přirozeného jazyka FI MU
• Ústav českého jazyka FF MU
Korpusová lingvistika
• vymezení v systému věd
• průnik humanitních (lingvistika) a přírodních
(matematika, informatika) věd
– studium přirozeného jazyka s využitím metod
přírodních věd
• dostatečné množství autentických jazykových dat
• empirie, observace (x introspekce)
• objektivita a evidence
• opakovaný experiment
• počítače a software
Korpusová lingvistika
• užší vymezení – vztah k NLP
• lingvistika, matematika a informatika
• počítačová lingvistika
– počítačové zpracování přirozeného jazyka, Natural Language Processing – NLP
• korpusová lingvistika
• vymezení v rámci lingvistiky
• samostatný obor
– přístup corpus-driven, výzkum korpusem řízený
– reformulování introspekcí stanovené hypotézy
• metodologie pro všechny části lingvistiky
– přístup corpus-based, výzkum korpusem ověřovaný
– exemplifikace hypotézy, hledání dokladů)
• poskytuje zdroj jazykových dat
Co je to korpus
Jazykový korpus (z lat. corpus „tělo, těleso“) je rozsáhlý soubor
autentických textů (psaných nebo mluvených) převedený do
elektronické podoby v jednotném formátu tak, aby v něm bylo
možné jednoduše vyhledávat jazykové jevy, zejména slova a
slovní spojení. Korpus zobrazuje jazykové jevy v jejich
přirozeném kontextu, a umožňuje tak vytvářet na reálných
datech podložený jazykový výzkum v rozsahu, který byl dříve
nemyslitelný.
http://wiki.korpus.cz/doku.php/pojmy:korpus
Co je to korpus
Rozsáhlý soubor elektronicky uložených
jazykových dat, obvykle označkovaný,
organizovaný se zřetelem k využití pro určitý cíl,
vůči němuž je také považován za reprezentativní.
Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Studie
z korpusové lingvistiky. Praha: Karolinum, 2000, s. 15–38.
Elektronický text v korpusu
• lineární řetězec znaků
– psaný a mluvený
• jednotný kód (Unicode – UTF-8) a formát (txt)
• autentičnost – data se neupravují, korpus je
deskriptivní
– „Korpusová data jsou posvátná.“ (F. Čermák)
• etický kodex
• autorská práva
Co je to korpus – shrnutí
• elektronický soubor textů (rozsáhlý)
• autentické texty, slova v přirozeném kontextu
– konkordance
• sjednocené texty
– strojově čitelný formát, machine readable
format/MRF
– jednotné kódování
• označkovaná data (přidané informace)
• reprezentativní vůči svému účelu
Jak korpus vypadá uvnitř
• vertikál (vertikální text)
• token (tokenizace)
– řetězec znaků ohraničený z obou stran
mezerami
• type (word, slovní tvar n. lemma)
• token – type
– token-type ratio, type/token
– vysoké číslo = bohatost slovníku
– nízké číslo = velké opakování slov
• pro uživatele – korpusové manažery
• konkordance, KWIC (key word in
context)
2 <s>
3 Pro
4 představu
5 <g/>
6 ,
7 jakým
8 přívětivým
9 místem
10 byl
11 Americký
12 park
13 v
14 minulosti
15 <g/>
16 ,
17 uvádíme
18 několik
19 historických
20 fotografií
21 <g/>
22 .
23 </s>
Obsah a rozsah korpusu
• typ komunikace – korpusy psané, mluvené,
multimodální
• obsah – typy textů
– beletrie, odborné texty, publicistické texty
– texty z internetu
– soukromá korespondence
– přepisy mluvených nahrávek
– texty zahraničních studentů češtiny (žákovské korpusy)
• vyváženost (poměr kategorií)
Obsah a rozsah korpusu
• rozsah – velikost korpusu
– počet tokenů
– počet slov (type, word)
• opravdu velké korpusy (web jako korpus,
webové korpusy – několik miliard pozic)
– frekvenční studie
• malé specializované korpusy (stovky tisíc
pozic, jednotky milionů)
Obsah a rozsah korpusu
• celé texty
• vzorky (sampling) – vybraná část textu
• rozsah
– vymezený rozsah, uzavřený (předem stanoven) -
referenční
– otevřený/monitorovací korpus (plynule se
zvětšuje) – nereferenční
– korpus, který se pravidelně obnovuje a zvětšuje –
verzovaný (verze se číslují)
Značkování korpusu
• značkování – zvyšuje informační hodnotu korpusu
(vždy nutná dostupná interpretace značek = tagset)
• vnitřní značkování (vnitrotextové)
– strukturní atributy (opus, doc, s)
– morfologické značky
– poziční atributy (word, lemma, tag)
• vnější značkování, (vnětextové)
– na úrovni textu, metatextové informace (autor, název
díla, rok vydání atd.)
Hlavní rysy korpusu
• aneb čím se korpus liší od webu nebo
elektronického archivu
1. elektronické texty v jednotném formátu
2. značkování
3. zobrazení konkordancí v korpusových
manažerech
4. vymezený obsah a rozsah