KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11 Frekvenční seznam – slovních tvarů – slov – lemmat – pos – tag —Rozdíl mezi kvantitativní a kvalitativní analýzou korpusu spočívá v tom, že kvantitativní data přirozeně čerpatelná z korpusových textů nejsou součástí lingvistických rysů, které se datům přiřazují. —Jsou pouze bází pro analýzu, která musí pokračovat dále. V kvalitativně zaměřené analýze jsou málo frekventované jevy zkoumány se stejnou pozorností jako jevy silně frekventované. —Cílem analýzy korpusu není konstatování obvyklých a řídkých jevů v jazyce, nýbrž detailní popis jazyka jako celku. příklad : adjektivum rudý —kvantitativní analýza odhalí pouze počet výskytů —kvalitativní analýza se zaměří na významy užití (nejen barva, ale i např. politická příslušnost atd.) Reprezentativnost korpusu —Ve velmi malých korpusech je možné, že se okrajové jevy vůbec nevyskytnou a frekventované jevy nebudou zastoupeny dostatečně. —Velký korpus zaručuje možnost dobře zkoumat frekventované jevy. —Ncméně platí, že výskyt hapaxových jevů je stabilní (zvětšujeme-li rozsah textů, neklesá podíl – kvantitativní i kvalitativní – tzv. hapax legomena, ale i dalších hapaxových jevů). Vzorky —Výběr vzorku – neexistuje obecně platná metoda, jak určit reprezentativnost vzorku. —Podobné metody výběru vzorku zaručí, že data z korpusů zpracovaných co do výběru vzorků stejnými metodami budou srovnatelná navzájem. Zpracování dat kvantitativními metodami —V korpusové lingvistice jde kvantitativní analýza ruku v ruce s analýzou kvalitativní. —Běžně užívané techniky matematické statistiky, které v rámci KL následují za prostým počítáním frekvenčních výskytů jazykových jevů obsažených v korpusu. —Díky těmto metodám se lingvisté snaží získat z korpusů nejen prostá kvantitativní data, ale dojít k interpretaci jejich závažnosti, a to pomocí exaktních matematicky ověřených postupů. — metody matematické statistiky užívané v KL —Jsou to např. metody, při jejichž užití je možné brát zřetel na takové okolnosti, jako je typ okolí jednotky (kolokace), vzorku (žánr) atd. —Přehled je pouze omezený (nejsem matematický statistik a úvod do mat. stat. není cílem naší přednášky). —(více: Statistics for Corpus Linguistics v řadě edinburských učebnic empirické lingvistiky, internet). — Frekvenční analýza —matematické sečítání počtu jednotek (tokens) —v případě klasifikovaných jednotek typů (lemmat, tagů, pos, ...) —u anotovaných korpusů obecně můžeme počítat a) se snazší prací a b) s lepšími výsledky —u anotovaných korpusů je třeba mít na zřeteli, že počítáme pouze výsledky anotací, nikoliv to, co skutečně v korpusu je Proporcionalita —Prosté počítání frekvencí je jen jako první krok další analýzy. —Hlavní nevýhodou prostých frekvenčních výpočtů je, že výsledky, které jimi získáme, se mohou značně lišit v případě, kdy jeden a týž jev spočítáme v různých korpusech (např. psaném a mluveném). —Jak získané výsledky porovnat? —Výsledky ze dvou korpusů, které nejsou stejně velké: vypočítáme frekvenci jako procento z celkového počtu tokens v korpusu. Výsledek srovnání percentuálního zastoupení nám může říci něco spolehlivého. Porovnání výskytu tokenů v korpusech různého rozsahu —Např. zjistíme, že jev A se v korpusu psaného jazyka o 1 mil. slovních tvarů vyskytuje 500 krát a v korpusu mluveného jazyka o 100 000 slovních tvarů 50 krát. Vypočítáme percentuální výskyt, a to takto: —mluvený korpus (50: 100 000) x 100 =0,05% —psaný korpus (500: 1000 000) x 100=0,05% —V obou případech nám vyjde stejný výsledek. —Vypočítali jsme, že s ohledem na různost proporcí vzorků je frekvence stejná. —Vždy se vychází z poměru mezi velikostí vzorku a počtem výskytů. —ratio=počet výskytů typů /počet výskytů tokens v celém vzorku — Testování významnosti výsledků frekvenčních analýz —chi-square test —MI-score —T-score —z- score Kolokace —Metody se používají pro vyhledávání statisticky významných kolokací. —Kolokace (souvýskyt slov) jsou z lingvistického hlediska zajímavé. —Gramatika —Lexikon – idiomatika —MWE