Korpusová lingvistika – 4 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Budování korpusů • specifikace cíle a účelu korpusu • specifikace cílové skupiny uživatelů • specifikace typu korpusu • výběr a sběr jazykového materiálu • autorská práva • vnitřní a vnější značkování • hardwarové a softwarové vybavení • personální zajištění • finační podpora Budování korpusů podle jejich typu • tradiční synchronní psané korpusy • webové synchronní psané korpusy • specializované korpusy • mluvené korpusy Budování tradičních korpusů • Český národní korpus • výběr textů – vyváženost a reprezentativnost korpusu • dohody s poskytovateli textů (autorská práva) • texty v elektronické podobě • odstranění netextového obsahu • sjednocení kódování • záznam metatextových informací • vertikál – tokenizace • strukturní značky • lemmatizace a morfologické značkování Budování webových korpusů • Centrum zpracování přirozeného jazyka FI MU, czTenTen12 • Sketch Engine (ske.fi.muni.cz) • autorská práva – veřejně dostupné texty na Internetu • jusText – odstranění boilerplate (netextového obsahu) z webové stránky • vybírá text obsahující celé věty • onion (ONE Instance ONly) – odstranění duplikátů • chared (character encoding) – sjednocení kódování, pro řadu jazyků • Corpus Architect – tvorba korpusů • nahrávání textů v elektronické podobě uživatelem • WebBootCaT – texty z webu • seed words (klíčová slova) • URLs (adresy webových stránek) Budování mluvených korpusů • specifikace typu zaznamenané promluvy – monolog – dialog – formální – neformální (poloformální) – připravená – nepřipravená • specifikace délky nahrávky • specifikace mluvčích a sociolingvistických kategorií (pohlaví, věk, vzdělání, teritoriální zařazení) • autorská práva (prohlášení nahrávajícího) a anonymizace • pořízení kvalitní digitální nahrávky (diktafony), příp. úprava nahrávky Budování mluvených korpusů • přepis nahrávek podle stanovených pravidel • nástroj ELAN, dříve Transcriber • synchronizace segmentů • ortografický přepis • pauzová interpunkce • hezitační a jiné zvuky, přeřeknutí, smích, citoslovce, nesrozumitelné úseky, neverbální zvuky • simultánní úseky Pražský mluvený korpus • —první korpus mluvené češtiny • autentická mluvená čeština, tematicky nespecializovaná • z městského prostředí Prahy a jejího okolí • neformální dialogy, poloformální řízený rozhovor (dotazník) • magnetofonové nahrávky (304), přepis do MS Word • z let 1988–1996, odrážejí jazyk jak konce předchozího společenského období, tak začátek nového • pravidla přepisu ortografická, pro obecnou češtinu Brněnský mluvený korpus • —první korpus mluvené češtiny z oblasti Moravy • běžně mluvený jazyk z městského prostředí Brna • 250 anonymních magnetofonových nahrávek z let 1994–1999, 294 mluvčích • —prolíná se středomoravský interdialekt s obecnou češtinou • v oblasti slovní zásoby zbytky někdejšího soužití brněnské češtiny s německým jazykem a vliv brněnského slangu (hantecu) • reflektuje celomoravskou tendenci širšího funkčního využití češtiny spisovné • neformální a poloformální dialogy • v pravidlech přepisu zohledněna specifika brněnské mluvy Korpusy řady ORAL • —ORAL2006 – mluvená čeština z celé oblasti českých nářečí • 221 nahrávek z let 2002–2006 • pouze neformální dialogy, přátelský vztah mezi mluvčími • 111,5 hodin, 1 000 798 slov od 754 mluvčích • —ORAL2008 – plně vyvážený v základních sociolingvistických kategoriích (pohlaví, věk, vzdělání, oblast pobytu v dětství) • 297 nahrávek z let 2002–2007 • výhradně neformální situace • —115 hodin, 1 000 097 slov od 995 mluvčích Korpusy řady ORAL • —ORAL2013 – nahrávky pořízeny v Čechách, na Moravě i ve Slezsku • 835 nahrávek z let 2008–2011 • 2 785 189 textových slov, tj. celkem 3 285 508 pozic • 2 544 mluvčích, z toho 1 297 unikátních • délka téměř 300 hodin