DOSTUPNÉ KORPUSY A JEJICH STRUČNÁ CHARAKTERISTIKA Úvod do korpusové lingvistiky 3 ÚČNK —http://ucnk.ff.cuni.cz/ —Dostupné korpusy psaného jazyka —Hledisko rozsahu a obsahu —Hledisko anotací — Korpusy psané češtiny —Korpusy řady SYN —Synchronní, psané, reprezentativní, obecné (žánrové zastoupení) —Synchronní, psané, reprezentativní, specializované (PUB) — — Referenční – nereferenční korpus —Nereferenční korpus: Většina korpusů ČNK jsou referenční entity, které zůstávají po celou dobu od svého zveřejnění neměnné, takže všechny dotazy, statistiky apod. jsou opakovatelné a dávají stále stejné výsledky. Některé korpusy však mají naopak nereferenční povahu, což znamená, že jsou průběžně vylepšovány a rozšiřovány. Všechny tyto změny jsou vždy po nějaké době promítnuty do již zveřejněného korpusu. K aktualizaci nereferenčního korpusu dochází nepravidelně, přibližně jednou ročně, většinou bez předchozího upozornění. Synchronnost —Hledisko produkce —Hledisko recepce — Reprezentativnost —Žánrové zastoupení v obecných korpusech řady SYN —Zastoupení dle periodik v korpusech SYN_PUB SYN2000 —Zastoupení žánrů SYN2005 —Zastoupení žánrů — SYN2010 —Zastoupení žánrů — SYN2006PUB — SYN2009PUB — Standardní anotace —Vnětextová – kódy, možnost úplného zobrazení anotací —Tokenizace —Značkování odstavců —Značkování vět —Lemmatizace a morfologické značkování — Informace o rozsahu a obsahu korpusu při práci s korpusovým manažerem — SYN2000 — KonText — SYN2005 — SYN2010 — KonText — Definice word (tokenizace http://wiki.korpus.cz/doku.php/pojmy:token) —Řetězec znaků mezi oddělovači —Problémy tokenizace —Když jedné jednotce na úrovni systému odpovídá více jednotek na úrovni textu a naopak Lemma(http://wiki.korpus.cz/doku.php/pojmy:lemma) —Textové slovo – systémové slovo —Reprezentativní tvar —Lemmatizace prováděná pomocí automatických nástrojů —Lemma = tvar sám Tag —Tagset —Poziční systém —Atribut/hodnota —Klasické gramatické kategorie a morfologické tagy http://wiki.korpus.cz/doku.php/seznamy:tagy — Morfologické značky (tagy) —Morfologické značky (tagy) jsou součástí výsledku (výstupem) morfologické analýzy, která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. lemma, které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi dochází k desambiguaci (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější. —Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze psané češtiny), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie). — Large web corpora — czTenTen12 (5,5 miliard tokenů) —