Korpusová lingvistika – 3 Mgr. Dana Hlaváčková, Ph.D. CJBB105 Typy jazykových korpusů • znalost různých typů korpusů • schopnost vybrat správný korpus pro svoji práci • různá kritéria dělení • z hlediska obsahu, rozsahu, způsobu budování • stejné typy korpusů v celosvětovém měřítku • národní korpusy a subkorpusy Typy jazykových korpusů • typ zachycené komunikace • psané korpusy (hraniční typ – soukromá korespondence) • v ČNK – korpusy řady SYN, PUB • mluvené korpusy (včetně čtení předem připraveného psaného projevu) • v ČNK – PMK, BMK, řada ORAL • časový záběr • synchronní – cca 2. pol. 20 st. – současnost • korpusy řady SYN, PUB • diachronní – 13. st. – 1945 (beletrie)/1989 (publicistika, odborné texty) • DIAKORP Typy jazykových korpusů • zachycený jazyk • jednojazyčné – např. SYN2010 • paralelní – InterCorp, ORWELL (stejné texty v překladech do různých jazyků) • psané srovnatelné korpusy – Aranea (14 jazyků, V. Benko) • shodná metodika tvorby, srovnatelná velikost, čas pořízení textů, způsob budování • účel • všeobecné – řada SYN, ORAL (psané, mluvené, synchronní, bez speciálního zaměření) • specializované – např. KSK, BMK • žákovské korpusy – psané texty češtiny produkované nerodilými mluvčími Typy jazykových korpusů • způsob budování • tradiční – poskytovatelé textů (autorský zákon), elektronické texty, OCR • SYN2013PUB • mluvené – nahrávka, přepis • webové – texty stahované z internetu • ukWaC, CzTenTen12 (CZPJ FI MU) • možnost rozšíření • uzavřené – referenční, neměnný v čase, zpětně dostupný • jiný význam – při porovnávání frekvence jevů – standard, vzor obecného užívání jazyka • otevřené – nereferenční Typy jazykových korpusů • značkování • neoznačkované (morfologicky) – BMK, KSK, DIAKORP • značkované (morfologicky) • lemmatizace (přiřazení základních tvarů slov) • tagging (lemmata + morfologické značky), PoS tagging • značkované (foneticky, syntakticky) • fonetická transkripce – OMK (Katedra bohemistiky UP Olomouc, dr. Petr Pořízka) • syntax – PDT (ÚFAL MFF UK Praha) British National Corpus (BNC) • vedoucí role – Geoffrey Leech • jednojazyčný, synchronní, vyvážený, reprezentativní, široký průřez britskou angličtinou z konce 20 st., 1991–1994 • BNC Consortium (Oxford University Press), British Library, British Academy • 100 mil. slov, 90 % psaný jazyk (vzorky po 45 tis. slovech), 10 % mluvený • publicistika, beletrie, odborná literatura, formální i neformální promluvy • PoS Tagging Ústav Českého národního korpusu • ÚČNK FF UK, Panská ul., Praha, www.korpus.cz • založen 1994, ředitel prof. F. Čermák, od r. 2013 doc. V. Cvrček • spolupráce s Ústavem teoretické a komputační lingvistiky FF UK a Ústavem formální a aplikované lingvistiky MFF UK • budování ČNK • publikační činnost • výuka pro magisterský stupeň • výuka pro doktorský stupeň – obor matematická lingvistika Český národní korpus • korpusy řady SYN (všeobecný korpus, psaný synchronní jazyk, referenční korpusy, celkem 2,2 mld. slov, lemmatizace, morf. značkování) • SYN2000 – 1990–1999, 100 mil. slov • beletrie 15 %, odborná lit. 25 %, publicistika 60 % • SYN2005 – 2000–2004, 100 mil. slov • beletrie 40 %, odborná lit. 27 %, publicistika 33 % • SYN2010 – 2005–2010, 100 mil. slov • beletrie 40 %, odborná lit. 27 %, publicistika 33 % • SYN2006PUB – 1989–2004, 300 mil. slov • SYN2009PUB – 1995–2007, 700 mil. slov • SYN2013PUB – 2005–2009, 935 mil. slov Český národní korpus • specializované korpusy, např. • KSK-DOPISY – ručně psané dopisy z let 1990–2004, 800 tis. slov • ORWELL – román G. Orwella 1984, ručně značkovaný, 80 tis. slov, 2003 (MULTEXT-East, 12 jazyků, paralelní korpus) • CzeSL-Plain – žákovský korpus nerodilých mluvčích, 2 mil. slov, 2012 (eseje cizinců, odborné závěrečné práce, slohové práce romských žáků) • LINK (Lingvistův Narozeninový Korpus k výročí prof. F. Čermáka), odborné lingvistické texty z let 1985–2010, 1,8 mil. slov, Český národní korpus • diachronní korpus DIAKORP, 2005 • 1,95 mil. slov, nereferenční • texty od konce 13. st. po hranice synchronní složky (48 % z 19. st.) • různorodost textů – pravopisné systémy, tisky, rukopisy • transkripce (rekonstrukce) • vnětextové i vnitrotextové značkování, např. nezřetelné/nečitelné úseky, cizojazyčné citáty, poznámky pod čarou (bez morfologie) • plánována tzv. hyperlemmata Český národní korpus • paralelní korpus InterCorp, 1. verze 2008, nereferenční • 1,423 mld. slov (verze 8, 2015), 30 jazyků • párování (alignment), čeština = pivot • jádro (core) korpusu – ručně zarovnané hl. beletristické texty • kolekce (collection) – texty zarovnané automaticky • publicistika a zpravodajství z webu • právní texty Evropské unie • zápisy z jednání Evropského parlamentu 2007–2011 (Europarl) • filmové titulky z databáze Open Subtitles Český národní korpus • srovnatelné webové korpusy Aranea (ing. Vladimír Benko, Bratislava) • 2014, nereferenční, 14 jazyků, stejná velikost, stejná metodika a technologie tvorby • open-source (volně dostupné) nástroje, PoS tagging • základní velikost • 1,2 mld. slov = maius, • 10% vzorek, 120 mil. = minus, určeny pro vyučování • 10 mil. = minimum, pro testování nástrojů • maximum – „koľko sa podarí“, 5,5 mld., jen pro češtinu Korpusy v CZPJ FI MU • CzTenTen12 – webový korpus z r. 2012 • značkovaný (morfologie), 4,2 mld. slov • Czes – novinové články z let 1995–1998 a 2002, 350 mil. slov • OPUS2 Czech – česká část paralelního webového korpusu • Jörg Tiedemann, Uppsala University • CNPK – česko-německý paralelní korpus, Katedra německého jazyka a literatury PedF MU, 2005, celkem přes 7 mil. slov, snaha o vyváženost • chyby2 – texty studentů FI MU s vyznačenými chybami, 50 tis. slov • DESAM – 1 mil. slov, ruční desambiguace, referenční korpus