Začínáme s Bonitem 2
//Word Sketch Engine//
Východisko
Bonito 2 je internetový program, který lze použít na zpracování korpusu libovolného jazyka,
je-li tento korpus označkován vhodným způsobem.
Bonito 2 má řadu funkcí, z nichž základní jsou:
konkordancer (velmi rychlý a vysoce funkční)
program Word Sketch (viz dále).
Více informací o programu Word Sketch naleznete na Kilgarriff et al 2004 in Proc EURALEX.
Domovská stránka
Domovskou stránku jste zobrazili, když jste se do programu přihlásili jako registrovaní
uživatelé Českého národního korpusu. Jste tedy na stránce:
Concordance – New query
1.1. Konkordance – Nový dotaz
Klikněte na „Concordance - New Query“, dostanete se na stránku zadávacího formuláře.
Nad formulářem je tlačítko pro návrat na domovskou stránku „Home“.
Na formuláři je vedle vodícího ukazatele „Corpus“ rozevírací roletová nabídka
korpusů, se kterými lze aktuálně pracovat. Vytvoříte-li si subkorpus, bude se vám v budoucnu
zobrazovat v této nabídce také.
V této nabídce si vybereme korpus SYN2000. Tím se nám stránka změní na:
1.2. Hledané slovo / hledaná slova
Do sekce „Keyword(s)“ budeme zadávat námi hledané slovo / hledaná slova.
Za vodící ukazatel „Lemma“ zadáváme dotaz, hledáme-li přes lemma.
Za vodicí ukazatel „Word“ naopak zadáváme dotaz, hledáme-li jednu konkrétní formu,
necháme-li přitom prázdné pole „Match case“, bude se tvar hledat jak s malými, tak s velkými
písmeny (v Bonitu 1 hledání „lc“). Zaklikneme-li možnost „Match case“, bude se forma
hledat přesně tak, jak jsme ji zadali, tedy např. jen se všemi písmeny malými.
Za vodící ukazatel „Phrase“ zadáváme dotaz, hledáme-li kombinace slov, v tomto
poli jde však vždy o kombinace sousední. Lze vyhledávat jak na úrovni wordů (je základně
nastavena za vodícím ukazatelem „Default attribute“, stejně jako je základně nastavena
libovolná velikost písmen díky prázdnému poli „Match case“), tak na úrovni lemmat. Tuto si
můžeme nastavit za vodícím ukazatelem „Default attribute“.
Za vodícím ukazatelem „CQL“ lze zadávat dotazy pomocí regulárního jazyka. Je to ta
forma dotazu, která se nám zobrazila v dotazovacím řádku Bonita 1, vytvořili-li jsme si
složitější dotaz pomocí „Grafického vytváření“. Nepamatujeme-li si pravidla vytváření dotazu
v tomto jazyce, můžeme dotaz vytvořit v „Grafickém vytváření“ Bonita 1, dotaz odeslat do
korpusu, takže se nám znovu zobrazí v dolním okně. Z tohoto okna pak lze kopírovat.
Za vodícím ukazatelem „Default attribute“ si můžeme pro jednoslovné i víceslovné
dotazy vybrat, zda chceme hledat na úrovni formy („Word“), nebo na úrovni lemmatu
(„Lemma“).
1.3. Kontext
Do sekce „Context“ budeme zadávat informace pouze tehdy, jestliže chceme zpřesnit
charakteristiku kontextu, ve kterém se námi hledané slovo má nacházet. Jestliže chceme
kontext filtrovat.
Za vodícím ukazatelem „Query Type“ můžeme vybrat „All“, což bude fungovat jako
pozitivní filtr (v Bonitu 1 P-filtr), který nám zobrazí pouze ty kontexty klíčového slova, které
budou další (NÍŽE) zadané slovo (do vodícího ukazatele „Lemma“, jak vidno, zde nelze
zvolit úroveň „Word“) obsahovat, a to v zadaném rozmezí (defaultně –5 vlevo (Left context)
až 5 vpravo (Right context)). Vybereme-li „None“, kontexty klíčového slova, které další
(NÍŽE) zadané slovo obsahují, se nám nezobrazí (v Bonitu 1 N-filtr).
Za vodícím ukazatelem „Window Size“ zadáváme velikost kontextu, ve kterém
chceme, aby se další zadané slovo nacházelo. Ale pouze vždy buď vlevo od KWIC, nebo
vpravo od něj. Funkce, kterou známe z Bonita 1 – tedy funkce, která mohla pracovat před i za
KWIC současně, není v tomto formuláři k dispozici (srovnejte ale 4.4. Filtr !!). Zadáme-li
totiž stejné slovo do obou polí (tedy „Left context“ i „Right context“), hledáme kontext, ve
kterém se slovo vyskytlo JAK před, tak současně ZA hledaným klíčovým slovem (a to bývá
málokdy). Dotaz na okolí musíme tedy vždy rozdělit na dvě části, levou a pravou (srovnejte
ale 4.4. Filtr !!). Na druhou stranu nám tento způsob zpracování umožní relativně
jednoduchým způsobem hledat kontext, kde před klíčovým slovem stojí jiné konkrétní slovo,
než za ním. V Bonitu 1 jsme to dělali buď postupným použitím dvou P-filtrů za sebou, nebo v
Dotaz-Grafické vytváření-Posloupnost, kde jsme mezi hledaná slova vkládali OpakovaněLibovolná
pozice.
1.4. Práce nad vyhledanou konkordancí
Poté, co jsme odeslali formulář do korpusu a co se nám zobrazila hledaná konkordance,
můžeme pokračovat v práci.
V pravém horním rohu vidíme informaci o tom, v jakém se právě nacházíme korpusu
(„Corpus“) a kolik bylo na zadaný dotaz odpovědí, tedy kolik je nalezeno výskytů („Hits“).
V levé horní části nás tlačítka první řádky odvedou do jiných částí programu, začneme tedy
řádkou druhou.
1.4.1. KWIC versus věta
V korpusové lingvistice je vyhledaná konkordance často zobrazována tak, že klíčové slovo
(KWIC) je zarovnáno uprostřed, zvýrazněno barvou a kontext ubíhá vlevo a vpravo tzv. do
nekonečna. Tlačítko „KWIC/Sentence“ nám umožňuje přepínat z tohoto způsobu zobrazení
do zobrazení po celých větách (ty jsou pak zarovnány vlevo).
Možnost zobrazit si konkrétní kontext šíře nám ale zůstala, stačí, když levou myší
jednou klikneme na KWIC, jehož širší kontext nás zajímá. Objeví se v dolním okně, podobně
jako v Bonitu 1.
1.4.2. Možnosti zobrazení
Tlačítko „View options“ nás vede k formuláři, na kterém si můžeme vybrat, které hodnoty
jednotlivých slov uvnitř textu, tedy „Attributes“ chceme zobrazit:
word = samo slovo / konkrétní forma
lemma = lemma slova
tag = celý tag
lc = slovo / konkrétní forma – ovšem nehledě na velikost mísmen
pos = tag slovního druhu
a některé značky duplicitně ještě jednou či samostatně (tyto jsou zavedeny kvůli zpracování
Word Sketch-ů, toto zpracování totiž s korpusovými tagy pracovat nedokáže)
k = značka slovního druhu
g = jmenný rod
c = pád
Můžeme si tu ovšem vybrat pro zobrazení také hodnoty „References“, které chápeme jako
vnější textu, stojící mimo něj a vztahující se k němu jako k celku:
token number = číselné vyjádření pozice slova v korpusu
doc. type = typ textu
doc.temp = rok vydání
doc.opus = značka jednoznačně identifikující text (a zařazená v seznamu textů)
Relativně málo užívané je zobrazení „Structures“, tedy strukturních značek textu (začátky
vět, kapitol apod.):
doc = dokument (někdy kapitola románu, někdy celý román, v novinách
většinou článek)
s = věta
Tyto možnosti se buď zobrazují jen pro klíčové slovo („Display attributes“ „KWIC tokens
only“), nebo pro všechna slova („For each token“).
1.4.3. Vzorek
Tlačítko „Sample“ nás vede k formuláři pro „Random sample“, tedy náhodný výběr. Volíme
zde množství řádek tohoto náhodného vzorku.
1.4.4. Filtr
S filtrem aplikovaným přímo při prvním zadávání dotazu jsme se setkali už v „3.2. Kontext“ a můžeme ho vidět
na 3 obrázku v sekci „Context“.
Tlačítko „Filter“ nás vede k (v pořadí vlastně druhému) filtru, tento je aplikovaný po
vyhledání konkordance; je totožný s funkcemi, které známe z Bonita 1: P-filtr ‚zde „Filter
positive“, a N-filtr, zde „Filter negative“. Pro velikost kontextu, ve kterém chceme filtr použít,
platí stejná pravidla jako v Bonitu 1, levý kontext se zapisuje v záporných číslech (tedy např.
–3, 0 = filtr bude aplikován do tří pozic vlevo od klíčového slova).
1.4.5. Jednoduché třídění – víceúrovňové třídění
Tlačítko „Sort“ nás vede k formuláři pro jednoduché třídění – „Simple Sort“ – které známe
už z Bonita 1. Nenabízí sice možnost setřídit také klíčové slovo, což Bonito 1 umožňuje,
zbylé funkce jsou však shodné. (Setřídění klíčového slova zleva je možné pomocí prostřední
třídící ikony ve 4.6. – ovšem možnost třídění klíčového slova zprava /retrográdně/ Bonito 2
nenabízí vůbec).
„Multilevel sort“ je funkce, kterou Bonito 1 nemělo. Umožňuje totiž třídit „AŽ“
podle druhého, resp. třetího slova a slova bližší nebrat v úvahu. Podobně umožňuje také volit
v rámci těchto pozic POSTUP třídění.
1.4.6. Jednoduché třídění ikonami
Následující tři tlačítka jsou ikonami pro rychle setřídění – vždy zleva: levého kontextu,
klíčového slova, pravého kontextu.
1.5. Frekvence
Tlačítko „Frequency“ nás dovede k formuláři, který známe z Bonita 1 jako formulář pro
„Frekvenční distribuci“, zde má název „Multilevel frequency distribution“. Na rozdíl od
Bonita 1 nemůžeme jít dále za pozici 3 vlevo a v pravo od klíčového slova. Nemůžeme také
sledovat frekvenci všech atributů, které jsme mohli sledovat v Bonitu 1 – můžeme sledovat:
wordu / lc, lemmatu, tagu / pos, a dále: txtype, temp, opus.
Zajímá-li nás víceslovná jednotka, v Bonitu 2 (na rozdíl od Bonita 1) nemůžeme vytvářet
statistiky uvnitř tohoto řetězce, protože se zaměřuje jen na okolní kontext. Z klíčového řetězce
dokáže statisticky zpracovat pouze jeho první pozici.
Ve formuláři „Text Type frequency distribution“ si můžeme vybrat jeden z
možných pohledů na distribuci klíčového slova: podle typů textů, podle roku vydání, podle
jednotlivých děl. Poměr mezi absolutní frekvencí (zde „Freq“), a relativní frekvencí (tedy
frekvencí přepočtenou s ohledem na poměrnou velikost kategorie zde „Rel“) v konkrétním
námi zvoleném pohledu je tu znázorněn i sloupcovým grafem.
Sloupcový graf je konstruován následovně:
položky jsou řazeny za sebou podle klesající absolutní frekvence („Freq“). V celé tabulce
sloupcového grafu se v souvislosti s tím proporcionálně mění jen zobrazení ČERVENÉ
absolutní frekvence.
ŠEDÁ relativní frekvence (přepočtená na základě poměrné velikosti kategorie) je znázorněna
proporcionálně pouze vzhledem k sobě odpovídající červené hodnotě absolutní frekvence.
Zajímavou novinkou oproti Bonitu 1 je tu možnost nechat si zobrazený seznam „přetřídit“
(abecedně podle kolokujících slov / lemmat, nebo podle relativní frekvence), k tomu slouží
aktivní horní popisky sloupců, na které stačí kliknout.
1.6. Kolokace
Tlačítko „Collocation“ nás vede k formuláři „Collocation candidates“, který odpovídá v
Bonitu 1 funkci Statistiky-Kolokace. I zde si vybíráme, na čem chceme statistiky počítat
(_Attribute“: word – lemma – tag – lc – pos – k – g – c), v jak velkém kontextu se bude
kolokace zjišťovat („In the range from“). Jaká má být minimální frekvence započítávané
jednotky v korpusu („Minimum frequency in corpus“) a jaká má být minimální frekvence
započítávané jednotky v námi stanovené velikosti kontextu („Minimum frequency in given
range“). Vodící ukazatel „Maximum number of displayed lines“ poukazuje na možnost zvolit
si velikost seznamu, který se z korpusu spočítá.
Podobně jako v Bonitu 1 mají zobrazené sloupce scorů aktnivní horní popisky sloupců, takže
chceme-li získaný seznam přetřídit podle jiného scoru, stačí na daný horní popisek kliknout.
Na rozdíl od Bonita 1 jedna je tu ale 6 statistických měr, podle kterých můžeme nechat
kolokace setřídit („Sort by“), a rozdíl je i v tom, že si můžeme vybrat, které z možných měr
se nám ve výsledné tabulce zobrazí („Show functions“).
Na rozdíl od Bonita 1 tu máme velmi zajímavou možnost jednoduše se na kolokáty ze
zobrazeného seznamu podívat přímo do korpusu. Zcela vlevo máme funkce p/n , které jsou
shodné s P-filtrem a N-filtrem Bonita 1. Klikneme-li tedy na P, zobrazí se kolokace daného
slova (ze seznamu) s naším klíčovým slovem a to podle hodnot, které jsme si zadali do
formuláře Kolokace (tedy např. pokud je v rozmezí, které jsme zadali, pokud je v korpusu a v
okolí KWICu v počtech, které jsme zadali).
Corpus
2.1. Seznam slov
Pod vodícím ukazatelem "Word list" se skrývá funkce, kterou známe z Bonita 1 jako Seznam
slov. V Bonitu dvě je to funce vyčleněná ze sady funkcí "Concordance" ven – musíme tedy
znovu zadat korpus, ve kterém chceme pracovat. Podobně jako v Bonitu 1 můžeme zadávat
úroveň, kterou prohledáváme ("Attribute": word, lc, lemma, tag, pos, k, g, c), minimální
frekvenci hledané jednotky ("Minimum frequency in corpus") a maximální počet zobrazených
jednotek ("Maximum number of displayed lines"). Zobrazený výsledek můžeme – podobně
jako v Bonitu 1 – přetřídit podle frekvence (klinutím na "Freq"), nebo zpět podle abecedy
(kliknutím na "word").
Na rozdíl od Bonita 1 ale nefunguje druhé kliknutí. V Bonitu 1 totiž toto druhé kliknutí
setřídilo kategorii "zpětně" – tedy od nejnižší frequence k nevyšší, od konce abecedy k
začátku (ovšem i tentokrát prográdně).
Na rozdíl od Bonita 1 také nelze v tomto zobrazení vybrat jednu položku a nechat si zobrazit
její korpusové konkordance.
2.2. Vytvoření subkorpusu
Vodící ukazatel "Create subcorpus" známe z Bonita 1 jako Vytvoření subkorpusu. V Bonitu
2 klikneme na ukazatel a ve formuláři jako první krok zadáme korpus, ze kterého chceme
subkorpus vytvářet. Pak už jen vyplníme jméno subkorpusu ("New subcorpus name") a
zaškrtneme v kategoriích, ve kterých chceme vytvářet
typy textu = doc.txtype
rok = doc.temp
konkrétní dílo = doc.opus
konkrétní hodnoty. V pravém sloupci vidíme velikost dané kategorie, vyjádřenou množstvím
slov.
2.3. Zrušení subkorpusu
Jednoduchý a názorný formulář se nám objeví pod "Delete Subcorpora".
Sketches
3.1. Nárys užívání
I v češtině často používáme nepřeložené označení "Word sketch", které zastupuje relativně
komplexní funci, která spojuje následující úkony:
1) spočítání absolutní frekvence kolokace
2) spočítání hodnoty salience (MI-score krát logaritmus frekvence = tedy nové MI-score,
které je upraveno tak, aby se velmi nízké frekvence poněkud znormalizovali) a setřídění podle
této hodnoty
3) rozdělení seznamu podle syntaktických vztahů (uvnitř kterých zůstává setřídění podle
hodnoty salience) /seznam následuje/.
Podobně jako u Seznamu slov, musíme i zde na začátku zadat korpus, ve kterém chceme
pracovat. Dále zadáme "Lemma", které nás bude zajímat, možnost pracovat na úrovni "Word"
tu nemáme.
"Sort grammatical relations" bylo snad původně zamýšleno jako funkce, která – pokud ji
NEzvolíme – spočítá hodnoty kolokací, ale nebude je dělit podle syntaktických vztahů.
Funkce není aktivní a pokud chceme mít nedělený seznam setříděný podle salience,
použijeme v "Concordance" po vyhledání klíčového slova funkci "Collocation".
"Minimum frequency" je zde myšleno jako minimální frekvence v okolí KWIC-u, se kterou
se bude ještě pracovat, nikoli tedy v minimální frekvence v celém korpusu (tu zadávat
nemůžeme, na rozdíl od Bonita 1).
"Minimum salience" je minimální hodnota salience, která se bude ve výsledcích zobrazovat.
"Maximum number of items in a grammatical relation" je maximální počet jednotek
zobrazených v jedné kategorii (syntaktických vztahů).
Rozmezí (velikost okna), ve kterém jsou kolokace počítány, je –5 / 5 a nelze bohužel změnit.
Nejčastěji zobrazované syntaktické kategorie jsou:
a modifier přívlastek (shodný) stojící vlevo (od KWIC)
panelový dům
prec X X = konkrétní předložka, např. před
prec "před" předložkový vztah se substantivem vlevo (od KWIC)
stejně jmenný jako slovesný
trávník před domem
vyběhnout před dům
post X X = konkrétní předložka, např. s
post "s" předložkový vztah se substantivem vpravo (od KWIC)
stejně jmenný jako slovesný
dům se zahradnou
gen 1 genitivní vztah 2 substantiv (KWIC je v nominativu)
Dům kultury ...
gen 2 genitivní vztah 2 substantiv (KWIC je v genitivu)
majitel domu
prec verb verbum vlevo
stavějí domy
post verb verbum vpravo
dům chátrá
post inf infinitiv vpravo
dům prodat
se běží podívat
byt adj vztah s pomocným slovesem "být" a predikátovým adjektivem
(prvkem tagovaným jako adjektivum)
dům je prádný
prec prep předložka vlevo
před domem
post prep předložka vpravo
běžel ke (dvěřím)
has subj "má podmět (jaký)"
vztah verbálního KWIC-u a substantiva v nominativu
lhůta běží
is subj of "je podmětem pro"
vztah KWIC-u v nominativu a verba
dům vyhořel
is obj2 of "je předmětem ve 2 pádě pro"
vztah KWIC-u v genitivu a verba
se netýká domu
is obj3 of "je předmětem ve 3 pádě pro"
vztah KWIC-u v dativu a verba
šel domu !! chybně tagováno
has obj4 "má (tento) předmět ve 4 pádě"
vztah verbálního KWIC-u a substantiva v akuzativu
běžel maraton
is obj4 of "je předmětem ve 4 pádě pro"
vztah KWIC-u v akuzativu a verba
prohledali dům
has obj7 "má (tento) předmět v 7 pádě"
vztah verbálního KWIC-u a substantiva v instrumentálu
běží ulicí
is obj7 of "je předmětem v 7 pádě pro"
vztah KWIC-u v instrumentálu a verba
prochází domem
coord vztah lexikálně vyjádřené koordinace s jednotkou stejné třídy
dům a zahradu
se otočil a běžel
Výhodnou a jistě často užívanou funkcí bude možnost okamžitě se podívat na konkrétní
kolokát, který nás zaujal. stačí, když klikneme na aktivní absolutní frekvenci kolokace
3.2. Rozdíly v užívání 2 jednotek
Tato funkce, tedy "Word sketch difference" zpracovává způsobem popsaným v 3.1. dvě
jednotky, jejich výsledky porovnává a zobrazuje barevně odlišeně (první položka je zelená a
různý stupeň přináležitosti k ní je naznačen tónem/sytostí barvy, druhá položka je červená,
stupeň přináležitosti je řešen stejně). Tento způsob je zřetelně vidět na tabulce v záhlaví
výsledků, kde je vyznačeno i střední, nespecifické pásmo krémové barvy a hraniční hodnoty
odlišných tónů/sytostí barev.
chata 21 14 7 0 -7 -14 -21 chalupa
Celkové zobrazení je ovšem celkem názorné. Má dvě varianty. V Bonitu 2 je předem
zaškrtnuta za vodícím ukazatelem "Separate blocks" položka "common/exclusive blocks".
Toto funkce nám vytvoří zobrazení:
– jedno pole pro společné jednotky
– další dvě pole pro jednotky specifické pro každé z klíčových slov
Protože vedle pole pro jednotky společné jsou zde další dvě pole, máme dvojí možnost zadat
množství zobrazovaných jednotek: jednak v poli společném "Maximum number...of the
common block", jednak v polích disjuktních "Maximum number...of the exlusive block".
Pokud ovšem za vodícím ukazatelem "Separate blocks" zvolíme položku "all in one block",
pak budete mít všechny jednotky statistikou považované za relevantní v jediném společném
přehledu.
Pozor!!!
Barva tu nesouvisí s výlučností pro jedno z klíčových slov, souvisí pouze s hodnotou salience,
která může být i pro slova (v dané dvojici) specifická pro jedno z klíčových slov relativně
nízká.
Srovnejte v tabulce níže např. kolokát „oblast“.
3.3. Tezaurus
Za vodícím ukazatelem „Thesaurus“ najdeme formulář pro hledání lemmat (v konkrétním
korpusu, který si musíme nejdříve vybrat), v jejichž okolí se vyskytuje určitý počet stejných
jednotek jako v okolí zadaného klíčového slova. Jsou tedy porovnány výsledky „Sketchů“ pro
celý korpus a výsledný seznam obsahuje ty jednotky, u kterých byla shledána podobnost
s klíčovým slovem („Minimum similarity between cluster items“) vyšší, než ve formuláři
zadaná (nebo jí rovná).
Jak je tato „podobnost“ počítána, není jasné. Z výsledků není zřejmé bohužel ani to, k čemu
referují hodnoty zobrazované za každým uváděným lemmatem. Lze jen říci, že se výsledky
skutečně proměňují v závislosti na
- počtu zobrazovaných lemmat („Maximum number of items“)
- minimální podobnosti s klíčovým slovem („Minimum similarity between cluster items“)
Za zmínku zde stojí organizace (shlukování) zobrazovaných lemmat. Lemmata nejsou
zobrazována podle jim odpovídajících hodnot (jejichž referenci bohužel neznáme), ale podle
vzájemných podobností. V tezauru pro slovo „dům“ tedy můžeme vidět následující shluky –
vybíráme:
budova 0.382 byt 0.361 objekt 0.295 prostor 0.201 stavba 0.2 zařízení 0.182 areál 0.162
město 0.261 obec 0.194 země 0.188 Praha 0.157 republika 0.155
místnost 0.191 pokoj 0.172 hala 0.166 sál 0.152
obchod 0.175 služba 0.165
rodina 0.175 dítě 0.154
majetek 0.161 pozemek 0.151