Korpusová lingvistika - 3 Typy korpusů Mgr: Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Typy jazykových korpusů • znalost různých typů korpusů • schopnost vybrat správný korpus pro svoji práci • v průběhu času přibývají nové typy • různá kritéria dělení • z hlediska obsahu, rozsahu, způsobu budování,... • stejné typy korpusů v celosvětovém měřítku • národní korpusy a subkorpusy • každý korpus je charakterizován více přívlastky (např. psaný, synchronní, verzovaný) Jak vybrat správný korpus • zařazení do typologie - obsah • rozsah (frekvenční studie, statistická významnost) • metodologie tvorby korpusu (má často vliv na obsah) • typ značkovania metadata • přístupnost - volné verze, přihlašovací údaje, typy korpusových manažerů Typy jazykových korpusů • typ zachycené komunikace • psané korpusy (Written Corpora) • hraniční typ - soukromá korespondence, KSK • v ČNK-korpusy řady SYN, PUB • mluvené korpusy (Spoken Corpora) • včetně čtení předem připraveného psaného projevu • v ČNK - PMK, BMK, řada ORAL, ORTOFON, ORATOŘ • multimodální/multimediální- DIALOG a MONOLOG (ÚJČ), MALACH (MFF UK) Typy jazykových korpusů • časový záběr • synchronní - cca 2. pol. 20 st. - současnost • korpusy řady SYN, PUB • diachrónni - 13. st. - 1945 (beletrie)/1989 (publicistika, odborné texty) • DIAKORP (14.-20. století) Typy jazykových korpusů • zachycený jazyk • jednojazyčné - národní, např. SYN2020 • paralelní - stejné texty v překladech do různých jazyků • InterCorp ORWELL( Mul text East) • Česko-německý paralelní korpus (PedF MU) • mezinárodní OPUS (online texty), EuroParl • psané srovnatelné korpusy (Comparable Corpora) -Aranea (24 jazyků, V. Benko) • shodná metodika tvorby, srovnatelná velikost, čas pořízení textů, způsob budování Typy jazykových korpusů ucel • všeobecné - řada SYN, ORAL (psané, mluvené, synchronní, bez speciálního zaměření) • specializované - např. KSK, BMK, DIALEKT • žákovské/akviziční korpusy (Learner Corpora) - psané texty češtiny produkované nerodilými mluvčími Typy jazykových korpusů • způsob budování • tradiční - poskytovatelé textů (autorský zákon), elektronické texty, OCR • mluvené - nahrávka, přepis (souhlas s nahráváním) • webové - texty stahované z internetu • ukWaC, deWaC, CsTenTenl2 a CzechWeblľ • možnost rozšíření • uzavřené - referenční, neměnný v čase, zpětně dostupný • otevřené (monitorovací) - nereferenční Typy jazykových korpusů * značkování • neoznačkované (morfologicky) - BMK, KSK, DIAKORP • značkované (morfologicky) • lemmatizace (přiřazení základních tvarů slov) • tagging (lemmata + morfologické značky), PoS tagging • značkované (foneticky syntakticky) • fonetická transkripce - OMK (Katedra bohemistiky UP Olomouc, dr. Petr Pořízka), ORTOFON • syntax-SYN2015, SYN2020, PDT (ÚFAL MFF UK Praha) • verzované korpusy - SYN v. 12, InterCorp v. 16, DIAKORP v. 6 Vyváženost a reprezentativnost korpusů • vyváženost a reprezentativnost • z pohledu produkce a recepce textů • rovnoměrná • z hlediska pokrytí variability textů v daném jazyce • u mluvených korpusů vyvážené sociolingvistické kategorie • nevyvážené korpusy • vyváženost není cílem • webové Ústav Českého národního korpusu • ÚČNK FF UK, Panská ul., Praha, www.korpus.cz • založen 1994, ředitel prof. F. Čermák do r. 2013 • spolupráce s Ústavem teoretické a komputační lingvistiky FF UK a Ústavem formální a aplikované lingvistiky MFF UK • budování ČNK • publikační činnost • Frekvenční slovník češtiny, 2004, na korpusu FSC2000 • výuka pro magisterský stupeň • výuka pro doktorský stupeň - obor Matematická lingvistika Český národní korpus • korpusy řady SYN (všeobecný korpus, psaný synchronní jazyk, referenční korpusy, celkem 5 mld. slov, lemmatizace, morf. značkování) • SYN2000 - 1990-1999, 100 mil. slov • beletrie 15 %, odborná lit. 25 %, publicistika 60 % • SYN2005 - 2000-2004, 100 mil. slov • beletrie 40 %, odborná lit. 27 %, publicistika 33 % • SYN2010 - 2005-2010, 100 mil. slov • beletrie 40 %, odborná lit. 27 %, publicistika 33 % • SYN2015 - 2011-2015, 100 mil. slov • beletrie 33 %, odborná lit. 33 %, publicistika 33 % • SYN2020 - 2015 - 2019,100 mil. slov • beletrie 33 %, odborná lit. 33 %, publicistika 33 % Český národní korpus • specializované korpusy, např • KSK-DOPISY- ručně psané dopisy z let 1990-2004, 800 tis. slov • ORWELL- román G. Orwella 1984, ručně značkovaný, 80 tis. slov, 2003 (Multext East, 12 jazyků, paralelní korpus) • CzeSL-Plain - žákovský korpus nerodilých mluvčích, 2 mil. slov, 2012 (eseje cizinců, odborné závěrečné práce, slohové práce romských žáků) • LINK (Lingvistův Narozeninový Korpus k výročí prof. F. Čermáka), odborné lingvistické texty z let 1985-2010, 1,8 mil. slov • NET- polooficiální komunikace na internetu (diskuznífóra, blqgy) Český národní korpus • diachrónni korpus DIAKORP v. 6, 2005 • 3,4 mil. slov • texty od konce 13. st. po hranice synchronní složky (48 % z 19. st.) • různorodost textů - pravopisné systémy, tisky, rukopisy • transkripce (rekonstrukce) • vnětextové i vnitrotextové značkování, např nezřetelné/nečitelné úseky, cizojazyčné citáty, poznámky pod čarou (bez morfologie) • návrh na využití tzv. hyperlemmat (kůň - kuoň, kóň) Český národní korpus • paralelní korpus InterCorp, • 25 mil. slov (verze 0, 2008,19 jazyků • 5,3 mld. slov (verze 16, 2023), 61 jazyků • párování (alignment), čeština = pivot • jádro (core) korpusu - ručně zarovnané hl. beletristické texty • kolekce (collection) - texty zarovnané automaticky • publicistika a zpravodajství z webu • právní texty Evropské unie • zápisy zjednání Evropského parlamentu 2007-2011 (EuroParl) • filmové titulky z databáze Open Subtitles • překlady Bible Český národní korpus • srovnatelné webové korpusy Aranea (dr. Vladimír Benko, Bratislava) • 2014, nereferenční, 24 jazyků, stejná velikost, stejná metodika a technologie tvorby, slovakocentrický • open-source (volně dostupné) nástroje, PoS tagging • základní velikost • 1,2 mld. slov = maius • 10% vzorek, 120 mil. = minus, určeny pro vyučování • 10 mil. = minimum, pro testování nástrojů • maximum - „koľko sa podarí", 7 mld. jen pro češtinu • např. Araneum Bohemicum, Araneum Germanicum, Araneum Francogallicum Helveticum Korpusy od Lexical Computing - Sketch Engine • Czech Web 2023 (csTenTen23) - 2023 • 5,4 mid. tokenů, 4,5 mid. slov (word) • Czech Web 2017 (csTenTenl7) - 2017 • 12,6 mid. tokenů, 10,5 mid. slov (word) • OPUS Czech (Open Parallel Corpus) - česká část paralelního webového korpusu • Gutenberg Czech 2020 - e-books z Gutenberg Database (29 jazyků) • Czech parliamentary debates - projekt Parla Mint (17 srovnatelných korpusů) Přístup ke korpusům • Česky národní korpus http://wiki.korpus.ez/doku.php/cnk:uvod • Sketch Engine https://www.sketchengine.eu/ • Aranea http://unesco.uniba.sk/