Lemmatizace a morfologické značkování v korpusech soukromé korespondence Na CD 1 jsou tři korpusy soukromé korespondence: KSK-dopisy, KSK-e-maily, KSK-dopisy1. Všechny tři byly lemmatizovány automatickým morfologickým analyzátorem AJKA http://nlp.fi.muni.cz/projekty/ajka/ (počítačový program přiřadil každému izolovanému textovému slovu lemma/lemmata, tj. základní slovníkový tvar/slovníkové tvary). Automatický morfologický analyzátor AJKA byl původně vyvinut pro automatickou morfologickou analýzu a využíván pro automatickou lemmatizaci a značkování (tagování, tj. gramatickou morfologickou anotaci) korpusů spisovných textů. Pro korpusy s vysokou frekvencí substandardních tvarů (k nimž patří také korpusy soukromé korespondence) byla vytvořena modifikovaná verze, která automaticky rozpoznává i velké množství nespisovných tvarů. Korpusy KSK-dopisy a KSK-e-maily jsou automaticky lemmatizovány modifikovanou verzí analyzátoru AJKA. Tvarům, jež AJKA nerozpoznala, byl místo lemmatu automaticky přiřazen tvar sám. Lemmatizace je tedy zatím pouze neúplná. Verze korpusů KSK-dopisy a KSK-e-maily uvedená na CD 1 není morfologicky označkována. Korpus KSK-dopisy1 zahrnuje 1 000 dopisů identických s dopisy první poloviny KSK-dopisy. Je automaticky lemmatizován a morfologicky označkován, ručně disambiguován (95 %) a částečně ručně doznačkován (1,6 % ze zbývajících 5 %). Tokenizace Všechny tři korpusy jsou automaticky tokenizovány, tj. rozděleny na jednotlivé pozice. Pozicí se rozumí samostatný řetězec znaků, s nímž pak pracují další automatické programy. Samostatné pozice jsou: textová slova (řetězce abecedních znaků mezi mezerami), ciferné výrazy, interpunkční znaky (nerozlišuje se tečka za větou a tečka, která je součástí zkratky, takže například zkratka „str.“ je rozdělena na dvě pozice a samostatně je označkován řetězec „str“ a samostatně „.“) atd. Základní vyhledávání v korpusu KSK-dopisy1 Vyhledávání podle lemmatu (Vyhledávání podle lemmatu je v zásadě možné i v KSK-dopisy a v KSK-e-maily. Je však třeba počítat s tím, že některé substandardní formy vyhledávací program podle lemmatu nenajde; viz výše.) Chceme-li vyhledat slovo nebo slovní spojení ve všech jeho jednoduchých tvarech, hledáme podle tzv. lemmatu (základního slovníkového tvaru). U slovesa je tímto tvarem infinitiv (jednoduchého slovesného tvaru, takže například ve větě „Už jsem se nechala vyfotit ...“ budou tři samostatné slovesné tvary, jimž budou odpovídat tři lemmata: tvaru jsem bude přiřazeno lemma být, tvaru nechala lemma nechat a tvaru vyfotit lemma vyfotit). U podstatných jmen a bezrodých zájmen je lemmatem tvar 1. pádu, u přídavných jmen, adjektivně skloňovaných zájmen a číslovek je lemmatem tvar 1. pádu mužského rodu jednotného čísla. U neohebných slovních druhů je lemmatem tvar sám. Výjimkou jsou některé substandardní varianty (viz níže), které mají lemma podle standardní varianty. Jde o tyto případy: 1) Varianty se substandardní koncovkou Například: tvar klukama má lemma kluk, tvar ject má lemma jet, tvar žijó má lemma žít, tvar bavěj má lemma bavit, tvar dobrej má lemma dobrý, tvar kterejma má lemma který. 2) Varianty se substandardní kmenotvornou příponou (u sloves) Například: tvar myslim má lemma myslet nebo tvar vidim má lemma vidět. 3) Substandardní tvary zájmen Například: tvar ja má lemma já, tvar nama má lemma my, tvar teho má lemma ten. 4) Substandardní tvary slovesa být Například: tvary su, seš, sou, sem, sme, bejt, ... má lemma být. 5) Substandardní tvary kondicionálů by, ... s variantami aby, .., kdyby, ... Například: tvar bysme má lemma by 6) Tvary s protetickým v- Například: tvar vobšťastňovat má lemma obšťastňovat, předložka vod má lemma od. 7) Varianty se substandandardními pravopisnými jevy (chybami) Například: tvar tvar být (A nepiš už taťkovi že mě nemá být po hlavě a že budu blbej ...) má lemma bít. Lemmatem slovotvorně substandardních tvarů je pravidelně vytvořený tvar nominativu nebo infinitivu. Například: tvar dopendluju má lemma dopendlovat nebo tvar foťáku má lemma foťák, tvar kámoškou má lemma kámoška, tvar strejdou má lemma strejda, tvar bráchem má lemma brácha. Výsledkem hledání jsou všechny konkordance obsahující tvary hledaného slova (s malým i velkým počátečním písmenem). Dotaz zapíšeme do dotazového řádku v následujícím tvaru: [lemma="být"]. Příklad: Do dotazového řádku napíšeme: [lemma="být"] a stiskneme Enter. (...) došel . Doufám , že už < jste> zdraví . Já už celkem jo , ještě trochu rýmy , ale snad už to < bude> dobrý . Ale měla bych to někde zaťukat Samozřejmě , že < je> to blbost , na to se nepotřebuju ptát @ vím už dávno , mimo to < jsme> to brali i loni v morfologii . Že je to neprožívá , protože < su> střízlivá , ale večer se ožeru a to pak na Lochotín a vydaly < sme> se pěšky přes sídliště k rodiným domkům vidět z obrázku , měly < ste> se přímo skvěle . Mimochodem , " Přesto , že < seš> hroznej , mám Tě ráda " . Nevím , zdali nevím , protože ty < si> tam vlastně nechodila ) . S nimi jsme (...) Příklad: Hledáme-li slovní spojení, zadáme dotaz: [lemma="dobrý"] [lemma="den"] (...) dopis čteš ráno , tak < dobrý den> a úspěšné , usměvavé odpoledne Zrovna dneska byl < dobrej den> . Koupil jsem si za slušnou (...) Vyhledávání podle morfologické značky (tagu) KSK-dopisy1 byl automaticky lemmatizován a označkován modifikovanou verzí automatického morfologického analyzátoru AJKA http://nlp.fi.muni.cz/projekty/ajka/. Poté byl ručně disambiguován a ručně byla doplněna lemmata a značky většině tvarů nerozpoznaných automatickou analýzou. Označkováno je 96,6 % tvarů. V korpusu KSK-dopisy1 můžeme vyhledávat podle morfologických značek (tagů). Morfologický tag je složen z atributů a hodnot, které atributy aktuálně nabývají pro analyzovaný tvar (word). Všechny značky povinně obsahují atribut slovní druh. Podle jednotlivých slovních druhů se pak ve značce objevují v daném pořadí další atributy: podstatných jmen (rod, číslo, pád, fakultativní atributy – viz níže), přídavných jmen (negace, rod, číslo, pád, stupeň, fakultativní atributy – viz níže), zájmen (osoba – fakultativně u zájmen, která vyjadřují osobu, rod – fakultativně u zájmen, která vyjadřují rod, číslo, pád, fakultativní atributy – viz níže), číslovek (rod – fakultativně u číslovek vyjadřujících rod, číslo – fakultativně u základních číslovek jeden, dva, tři, čtyři a u adjektivně skloňovaných číslovek, pád, fakultativní atributy – viz níže), sloves (negace, vid, slovesný tvar, osoba – fakultativně podle slovesného tvaru, pokud ji tvar vyjadřuje, rod - fakultativně podle slovesného tvaru, pokud jej tvar vyjadřuje, číslo – fakultativně podle slovesného tvaru, pokud je tvar vyjadřuje, fakultativní atributy – viz níže), příslovcí (negace, stupeň, fakultativní atributy – viz níže). U dalších slovních druhů (předložek, spojek, částic, citoslovcí) se uvádějí pouze fakultativní atributy – viz níže. Tvary bych, bys, by, bychom, byste, abych, ..., kdybybych, ... mají zvláštní značku, v níž se uvádí atribut slovesný tvar s hodnotou kondicionál, osoba, číslo a fakultativní atributy – viz níže. Zkratky a interpunkce nemají u atributu slovní druh uveden slovní druh, ale značku, která říká, že jde o zkratku nebo interpunkci. Fakultativní atributy S-atribut U většiny slovních druhů může stát fakultativní atribut signalizující přítomnost volného morfému „-s“ zastupujícího pomocné sloveso „být“ ve tvarech 2. osoby singuláru prézentu. Například nejčastěji ses, sis, l-ové participium významového slovesa (mělas mi říct), tázací zájmena (cos mi napsala), příslovce (kdes zrovna poletovala), spojky ( žes počkala), ... atd. Tento atribut pracovně nazýváme „-s“ atribut, označujeme jej z a nabývá hodnotu S. Příklad: Tvar muselas má značku [tag=“k5eAaImAgFnSzS”], tvar žes má značku [tag=“k8zS”]. Atribut „stylistický příznak“ U všech slovních druhů je fakultativně uveden atribut stylistický příznak (w). V tomto atributu jsou zachyceny varianty se substandardními koncovkami, varianty s protetickým v-, chybné užití zájmenných tvarů (mě/mně, ji/jí, ...), některé nekodifikované slovotvorné inovace, pravopisné chyby. Zmíněné "anomálie" jsou signalizovány přítomností atributu w, který v těchto případech nabývá hodnoty H. Příklad: Tvar bráchem má značku [tag=“k1gMnSc7wH”], tvar kterej má podle kontextu např. značku [tag=“k3gMnSc1wH”], tvar vo má značku [tag=“k7wH”], chybně napsaný tvar jí v kontextu „ta jí poprosila“ má značku [tag=“k3p3gFnSc4wH”], chybně napsaný tvar být v kontextu „... být po hlavě ...“ má značku [tag=“k5eAaImFwH“] atd. Poznámka: Stylistický příznak wH nemají ve značce v KSK-dopisy1 frekventované tvary citoslovečného rázu (pozdravy) např. ahojky, čauky, ahojda, ... Stylistický příznak wH nemá dále řada slovotvorných inovací běžné mluvy. Slovníky spisovného jazyka některé z nich zaznamenávají, takže je automatický analyzátor AJKA byl schopen identifikovat. Jiné (především frekventované) byly doplněny do modifikované verze morfologického analyzátoru AJKA. Tyto tvary sice mají stylistický příznak v poznámce wH, ale uživateli se nezobrazuje. Jsme si vědomi inkonsistence tohoto prozatímního řešení. Stylistický příznak wH v podobě, která je popsána níže, mají tedy pouze ty substandardní slovotvorné inovace, které byly dodatečně označkovány ručně (výkoňák, ...). Morfologické tagy – systém atribut/hodnota Morfologická značka (tag) má striktně stanovenou formu. Je to posloupnost příslušných atributů a jejich hodnot. Pokud chceme vyhledávat pouze podle některého z atributů (například všechny tvary označené jako substantiva - [tag=“k1.*”], všechny tvary mající značku signalizující množné číslo [tag=“.*nP.*”], všechny tvary jmen v dativu [tag=“.*c3.*”]) pak je třeba použít patřičným způsobem regulární výrazy. Pro potřeby vyhledávání podle značek vystačíme se sekvencí „.*“, kde tečka „.“ představuje jeden libovolný znak a hvězdička „*“ představuje libovolný počet (0 a více) opakování předchozího znaku nebo výrazu. Příklad: Dotaz [tag=“k5.*”] čteme takto: vyhledej všechna slovesa (tvary, které mají hodnotu atributu slovní druh k vyplněnou 5, což znamená sloveso), přičemž další kategorie ve značce jsou libovolné – „.*“ (nahrazené regulárním výrazem pro libovolné opakování 0-n znaků). Tabulkové přehledy jednotlivých atributů Atribut slovní druh - k hodnota atribut+hodnota 1 substantiva k1 2 adjektiva k2 3 zájmena k3 4 číslovky k4 5 slovesa k5 6 příslovce k6 7 předložky k7 8 spojky k8 9 částice k9 0 citoslovce k0 A zkratky kA Y tvary by, bych, bys, bychom, byste, aby, ..., kdyby, ..., (+ substandardní varianty) kY Z interpunkce kZ Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako předložky, do dotazového řádku napíšeme: [tag="k7.*"], kde k znamená atribut slovní druh nabývající hodnotu 7, tj. předložka, a stiskneme Enter. Atribut jmenný rod - g hodnota atribut+hodnota M maskulinum životné gM I maskulinum neživotné gI F femininum gF N neutrum gN Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako substantiva rodu ženského, do dotazového řádku napíšeme: [tag="k1gF.*"] a stiskneme Enter. Atribut číslo - n hodnota atribut+hodnota S singulár nS P plurál nP D duál nD Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako substantiva rodu středního v singuláru, do dotazového řádku napíšeme: [tag="k1gNnS.*"] a stiskneme Enter. Atribut pád - c hodnota atribut+hodnota 1 nominativ c1 2 genitiv c2 3 dativ c3 4 akuzativ c4 5 vokativ c5 6 lokál c6 7 instrumentál c7 Příklad: Budeme-li chtít vyhledat všechny tvary substantiv rodu mužského životného v plurálu ve druhém pádě, do dotazového řádku napíšeme: [tag="k1gMnPc2.*"] a stiskneme Enter. Atribut negace - e hodnota atribut+hodnota A adjektiva, slovesa a adverbia bez prefixu ne- signalizujícího negaci eA N adjektiva, slovesa a adverbia s prefixem ne- signalizujícím negaci eN Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako adjektiva, která nemají prefix ne- signalizující negaci, jsou rodu mužského neživotného v plurálu ve třetím pádě, do dotazového řádku napíšeme: [tag="k2eAgInPc3.*"] a stiskneme Enter. Atribut stupeň - d hodnota atribut+hodnota 1 pozitiv d1 2 komparativ d2 3 superlativ d3 Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako adjektiva, která mají prefix ne- signalizující negaci, jsou rodu mužského neživotného v plurálu ve druhém pádě a pozitivu (prvním stupni), do dotazového řádku napíšeme: [tag="k2eAgInPc3d1.*"] a stiskneme Enter. Atribut slovesný tvar - m hodnota atribut+hodnota F infinitiv mF I indikativ (jednoduché tvary) mI R imperativ mR A l-ové participium mA N n-/t-ové participium mN S přechodník přítomný mS D přechodník minulý mD B tvary budu, budeš, bude, budeme, budete, budou mB C tvary by, bych, bys, bychom, byste, aby, ..., kdyby, ..., (+ substandardní varianty) mC Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako infinitiv, do dotazového řádku napíšeme: [tag="k5.*mF.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako indikativ (jednoduché tvary), do dotazového řádku napíšeme: [tag="k5.*mI.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako imperativ, do dotazového řádku napíšeme: [tag="k5.*mR.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako l-ové participium, do dotazového řádku napíšeme: [tag="k5.*mA.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako n-/t-ové participium, do dotazového řádku napíšeme: [tag="k5.*mN.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako přechodník přítomný, do dotazového řádku napíšeme: [tag="k5.*mS.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako přechodník minulý, do dotazového řádku napíšeme: [tag="k5.*mD.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary budu, budeš, ..., do dotazového řádku napíšeme: [tag="k5.*mB.*"] a stiskneme Enter. Příklad: Budeme-li chtít vyhledat všechny tvary by, ..., aby, ..., kdyby, ..., do dotazového řádku napíšeme: [tag="kYmC.*"] a stiskneme Enter. Atribut osoba – p hodnota atribut+hodnota 1 první p1 2 druhá p2 3 třetí p3 Příklad: Budeme-li chtít vyhledat všechny tvary označkované značkou signalizující gramatický význam osoby, a to 2. osoby, do dotazového řádku napíšeme: [tag=".*p2.*"] a stiskneme Enter. Atribut vid – a hodnota atribut+hodnota P perfektivum aP I imperfektivum aI B obouvidové aB Příklad: Budeme-li chtít vyhledat všechny tvary označkované jako imperfektivní slovesa, do dotazového řádku napíšeme: [tag="k5.*aI.*"] a stiskneme Enter. Atribut „-s“ – z (fakultativní) hodnota atribut+hodnota z tvar s připojeným nesamostatným morfémem „-s“ signalizujícím 2. osobu (ses, sis, byls, žes, kams, ...) zS Příklad: Budeme-li chtít vyhledat všechny tvary označkované značkou signalizující přítomnost nesamostatného morfému „-s“ nahrazujícího tvar 2. osoby pomocného slovesa být, do dotazového řádku napíšeme: [tag=".*zS.*"] a stiskneme Enter. Atribut „stylistický příznak“ – w (fakultativní) Poznámka: Tento atribut je fakultativní. Atribut w s hodnotou H je přiřazován všem substandardním variantám koncovek (děckama, blbej, bráchem, prosim, ...), frekventovaným substandardním variantám kmenů (bejt, su, ...), pravopisným chybám (přičemž mnohdy nelze rozlišit překlep a pravopisnou chybu v koncovce), chybně užitým tvarům zájmen (mě/mně, ji/jí), některým variantám nekodifikovaných slovotvorných inovací (výkoňák ,...) hodnota atribut+hodnota H substandardní varianty koncovek a kmenů wH Příklad: Budeme-li chtít vyhledat všechny tvary označkované atributem substandardní stylistický příznak, do dotazového řádku napíšeme: [tag=".*wH"] a stiskneme Enter. Přehledné tabulky řazení atributů a jejich hodnot podle slovního druhu Podívejme se ještě jednou, jak vypadají značky pro jednotlivé slovní druhy. V následujících tabulkách nalezneme řazení atributů podle atributu slovní druh, který je v systému značek atribut/hodnota závazný pro všechny označkované tvary. Následující tabulky mají uživateli ukázat závazné řazení atributů a jejich hodnot při tvorbě dotazu pro korpusový manažer Bonito. Postupujeme podle atributu slovní druh. Znak „|“ (čti „nebo“) se používá při konstrukci složitějších dotazů v korpusovém manažeru Bonito a umožňuje formulovat disjunkci (dotaz zahrnující alternativu). Zde jej používáme pro vyjádření paralelních možností. Substantiva - řazení atributů atribut atribut+hodnota k slovní druh k1 g rod gM|gI|gF|gN n číslo nS|nP|nD c pád c1|c2|c3|c4|c5|c6|c7 z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary označkovaných substantiv rodu ženského v singuláru ve třetím pádě, pak značka bude mít následující formu: [tag=“k1gFnSc3.*“] Příklad: Budeme-li chtít hledat tvary označkovaných substantiv rodu středního v plurálu v akuzativu, pak značka bude mít následující formu: [tag=“k1gNnPc4.*“] Příklad: Budeme-li chtít hledat tvary označkovaných substantiv, která mají v instrumentálu plurálu substandardní tvar, pak značka bude mít následující formu: [tag=“k1.*nPc7.*wH“] Adjektiva - řazení atributů U adjektiv a příslovcí se vyplňuje atribut d – stupeň s hodnotou 1 – pozitiv i u tvarů, které stupňovat nelze. Jsme si vědomi, že jde o kompromis. Atribut e – negace (přítomnost/nepřítomnost prefixu ne- vyjadřujícího negaci) se rovněž vyplňuje u všech adjektiv. atribut atribut+hodnota k slovní druh k2 e negace eA|eN g rod gM|gI|gF|gN n číslo nS|nP|nD c pád c1|c2|c3|c4|c5|c6|c7 d stupeň d1|d2|d3 z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary ženského rodu singuláru označkovaných adjektiv v šestém pádě, pak značka bude mít následující formu: [tag=“k2.*gFnSc6.*“] Příklad: Budeme-li chtít hledat substandardní tvary označkovaných adjektiv, v libovolném rodě v plurálu ve druhém pádě, pak značka bude mít následující formu: [tag=“k2.*nPc2.*wH“] Zájmena - řazení atributů atribut atribut+hodnota k slovní druh k3 p (fakultativně) u zájmen vyjadřujících osobu osoba p1|p2|p3 g (fakultativně) u zájmen rodových rod gM|gI|gF|gN n číslo nS|nP|nD c pád c1|c2|c3|c4|c5|c6|c7 z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary označkovaných zájmen, vyjadřujících druhou osobu, pak značka bude mít následující formu: [tag=“k3p2.*“] Příklad: Budeme-li chtít hledat tvary označkovaných zájmen v ženském rodě, v plurálu v libovolném pádě, pak značka bude mít následující formu: [tag=“k3.*gFnP.*“] Číslovky - řazení atributů atribut atribut+hodnota k slovní druh k4 g (fakultativně) rod gM|gI|gF|gN n (fakultativně) číslo nS|nP|nD c pád c1|c2|c3|c4|c5|c6|c7 z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary označkovaných číslovek v genitivu, pak značka bude mít následující formu: [tag=“k4.*c2.*“] Poznámka: Základní číslovky od 5 výše mají ve značce uvedeny pouze atributy slovní druh, pád a fakultativní atributy z a w ([tag=“k4c.*“]). Číslovky psané číslicemi jsou označkovány pouze atributem slovního druhu, jejich značka má tedy formu [tag=“k4“]. Slovesa- řazení atributů Atribut e – negace vyznačuje přítomnost/nepřítomnost prefixu ne- vyjadřujícího negaci. Lemmatem tvaru s prefixem ne- je příslušný infinitiv bez prefixu ne-. Poznámka: jedinou výjimkou jsou tvary slovesa být (viz níže). atribut atribut+hodnota k slovní druh k5 e negace eA|eN a vid aP|aI|aB m slovesný tvar mF|mI|mR|mA|mN|mS|mD|mB p (fakultativně) osoba p1|p2|p3 g (fakultativně) rod gM|gI|gF|gN n (fakultativně) číslo nS|nP|nD z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary sloves v imperativu ve 2. osobě, pak značka bude mít následující formu: [tag=“k5.*mRp2.*“] Příklad: Budeme-li chtít hledat tvary sloves v indikativu, ve 3. osobě plurálu, pak značka bude mít následující formu: [tag=“k5.*mIp3.*nP.*“] Příklad: Budeme-li chtít hledat substandardní tvary sloves v indikativu v 1. osobě singuláru, pak značka bude mít následující formu: [tag=“k5.*mIp1.*nS.*wH“] Příklad: Budeme-li chtít hledat tvary sloves přechodníku přítomného v singuláru, pak značka bude mít následující formu: [tag=“k5.*mA.*nS.*“] Příslovce - řazení atributů U příslovcí a adjektiv se vyplňuje atribut d – stupeň s hodnotou 1 – pozitiv i u tvarů, které stupňovat nelze. Jsme si vědomi, že jde o kompromis. Atribut e – negace (přítomnost/ne přítomnost prefixu ne- vyjadřujícího negaci) se rovněž vyplňuje u všech adjektiv. atribut atribut+hodnota k slovní druh k6 e negace eA|eN d stupeň d1|d2|d3 z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary označkovaných příslovcí s prefixem ne- signalizujícím negaci, pak značka bude mít následující formu: [tag=“k6eN.*“] Předložky - řazení atributů atribut atribut+hodnota k slovní druh k7 w (fakultativně) styl wH Příklad: Budeme-li chtít hledat substandardní tvary označkovaných předložek, pak značka bude mít následující formu: [tag=“k7wH“] Spojky - řazení atributů atribut atribut+hodnota k slovní druh k8 z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary označkovaných spojek s připojeným nesamostatným morfémem „-s“ nahrazujícím tvar 2. osoby pomocného slovesa být, pak značka bude mít následující formu: [tag=“k8zS.*“] Částice - řazení atributů atribut atribut+hodnota k slovní druh k9 z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary označkovaných částic, pak značka bude mít následující formu: [tag=“k9.*“] Citoslovce - řazení atributů atribut atribut+hodnota k slovní druh k0 w (fakultativně) styl wH Příklad: Budeme-li chtít hledat tvary označkovaných citoslovcí, pak značka bude mít následující formu: [tag=“k0.*“] Zkratky - řazení atributů atribut atribut+hodnota k slovní druh kA Příklad: Budeme-li chtít hledat tvary označkované jako zkratky, pak značka bude mít následující formu: [tag=“kA“] Tvary „by, ...“ - řazení atributů atribut atribut+hodnota k slovní druh kY m kondicionál cM p osoba p1|p2|p3 n číslo nS|nP|nD z (fakultativně) spojitelnost se „-s“ zS w (fakultativně) styl wH Příklad: Budeme-li chtít hledat označkované tvary kondicionálu v 1. osobě plurálu, pak značka bude mít následující formu: [tag=“kYmCp1nP.*“] Poznámka: Tvary by, aby, kdyby mají po automatické morfologické analýze pouze dvě varianty značek [tag=“kYmCp3nS.*“] nebo [tag=“kYmCp3nP.*“]. Jsme si vědomi toho, že se jedná o chybu: v případech spojení by sis, by ses, aby sis, aby ses, kdyby sis, kdyby ses tvar by nevyjadřuje 3. osobu, nýbrž 2. osobu. V korpusu KSK-dopisy1 zůstaly značky těchto tvarů prozatím neopraveny – uvádí se 3. osoba singuláru (celkem 72 výskytů). Speciální značky Vzhledem k tomu, že značkování korpusů s vysokou frekvencí substandardních jevů přineslo řadu problémů, z nichž některé se nám dosud nepodařilo uspokojivě vyřešit, snažili jsme se hledat prozatímní řešení. Jedním z nich je kategorizace a ruční značkování sporně řešitelných případů neoznačkovaných automatickou analýzou. Pro tyto případy jsme vytvořili speciální značky. Jsou přiřazeny slovním tvarům, jež nebylo možno klasifikovat pomocí existujících značek, popřípadě jednotlivostem, které by sice bylo možné uspokojivě zařadit, nicméně by si to vyžádalo více času, než jsme měli k dispozici. Speciální značky mají následující podobu: krátký text popisující důležitou charakteristiku tvaru uzavřený v úhlových závorkách <>. Přehled speciálních značek: Poznámka: Znak „&“ (čti: a) se používá při formulaci dotazů v korpusovém manažeru Bonito k vyjádření logické konjunkce. V následujícím textu jej používáme, abychom ukázali lemmatizaci a značkování speciálními značkami. Slova označkovaná speciálními značkami mají lemma identické s tvarem slova samotného. [tag=””] Tato značka byla ručně přiřazena následujícím případům: neúplné slovo Například: ta místo tak [lemma=”ta” & tag=””] spojení více slov Například: AhojBlani místo Ahoj Blani [lemma=”AhojBlani” & tag=””] rozdělené slovo Například: říkej me místo říkejme [lemma=”říkej” & tag=””][lemma=”me” & tag=””] neidentifikovatelné slovo Například:... nelze vyjít ze brány knihovny ... - z kontextu není zřejmé, zda jde o překlep ze místo z nebo místo za [lemma=”ze” & tag=””] [tag=””] Tato značka byla ručně přiřazena případům zkratek, které nebyly označkovány automatickou morfologickou analýzou značkou kA. Poznámka: Automatická morfologická analýza pracuje záměrně jen s omezeným množstvým zkratek. [tag=””] [tag=””] [tag=””] [tag=””] Tyto značky jsou přiřazeny některým frekventovaněji užitým anglickým, francouzským, německým, slovenským, ruským aj. slovům v textech. Poznámka: Delší úseky textů v cizích jazycích byly při přepisu dat odstraněny do ”poznámky”, takže se s nimi v běžném modu nepracuje. Záměrně však byla v textu ponechána jednotlivá cizojazyčná slova a slovní spojení. Makarónský způsob vyjádřování je totiž charakteristickým rysem v dopisech zejména mladých pisatelů. Upozornění: Pokud si uživatel není jistý, jaké lemma případně značku (tag) mají slovní tvary, které chce vyhledávat, může se dotázat na jednoho ze zástupců skupiny, kterou chce vyhledat. Jakmile je vyhledán konkordanční seznam, z nabídky Zobrazení zvolí řádek Atributy (Zobrazení > Atributy). Objeví se nabídka, v níž zvolí (kliknutím myši) atribut lemma a tag. U klíčových slov se objeví za znakem „/“ lomítko jejich /lemma a značka /tag. Například: Uživatel si nebude jistý, jak vypadají značky u slovesných tvarů (jaké je řazení atributů ve značce). Zeptá se na lemma některého frekventovaného slovesa, do dotazového řádku zapíše např. [lemma=“být“] a stiskne Enter. Na obrazovce se objeví konkordanční seznam, v pozici klíčového slova budou nejrůznější tvary slovesa být. Uživatel zvolí nabídku Zobrazení > Atributy, kliknutím myši zatrhne lemma a tag a klikne na Budiž. Z výsledku jednoduše vyčte pořadí atributů: .... Doufám , že už < jste/být/k5eAaImIp2nP> zdraví . Já už celkem jo rýmy , ale snad už to < bude/být/k5eAaImBp3nS> dobrý . Ale měla bych to Samozřejmě , že < je/být/k5eAaImIp3nS> to blbost , na to se vím už dávno , mimo to < jsme/být/k5eAaImIp1nP> to brali i loni v neprožívá , protože < su/být/k5eAaImIp1nSwH> střízlivá , ale večer se na Lochotín a vydaly < sme/být/k5eAaImIp1nPwH> se pěšky přes sídliště k vidět z obrázku , měly < ste/být/k5eAaImIp2nPwH> se přímo skvěle . " Přesto , že < seš/být/k5eAaImIp2nSwH> hroznej , mám Tě ráda nevím , protože ty < si/být/k5eAaImIp2nSwH> tam vlastně nechodila ) . .... Nastavení implicitního atributu Po spuštění je program Bonito nastaven tak, že se v dotazovém řádku předpokládá dotaz na slovní tvar, případně posloupnost slovních tvarů. Znaméná to, že je nastaven implicitní atribut word. Dotazy na ostatní atributy je nutné formulovat pomocí výše uvedených výrazů, které mají obecný tvar: [jméno_atributu="hodnota_atributu"]. Je ovšem možné zvolit jiný implicitní atribut podle toho, který typ dotazu klademe častěji. Zvolíme-li například atribut tag jako implicitní, nebudeme muset dotaz zapisovat formou [tag="k2eAgFnPc1.*"], ale do dotazového řádku přímo napíšeme morfologickou značku: k2eAgFnPc1.*. Implicitní atribut můžeme změnit pomocí položky Korpus > Implicitní atribut. Objeví se následující nabídka: Implicitní atribut Implicitní atribut pro dotazy (Sada dostupných atributů se může lišit podle zvoleného korpusu.) Implicitní atribut vybereme kliknutím myši do kolečka u zvoleného atributu a potvrdíme kliknutím na OK. Při práci s korpusem KSK-dopisy1 můžeme vybírat z těchto atributů: word Tento atribut je nastaven jako implicitní vždy po spuštění programu. Do dotazového řádku zadáváme jednotlivé slovní tvary. Například: po zadání dotazu kočky, manažer vyhledá pouze texty s výskytem tvaru kočky. Při vyhledávání podle atributu word záleží na velikosti písmen. lemma Nastavíme-li atribut lemma jako implicitní, budeme vyhledávat podle základního slovníkového tvaru (lemmatu). Do dotazového řádku pak zadáváme přímo lemmata. Například: do dotazového řádku napíšeme slovo kočka, manažer vyhledá výskyty tvarů odpovídajících tomuto lemmatu, tj.: kočka, kočky, kočku, koček, kočkou, kočce atd. Můžeme ovšem hledat i dvě (nebo více) lemmat vedle sebe. Zadáním dotazu dravá kočka, dostaneme výskyty: dravá kočka, dravých koček atd. tag Pokud nastavíme tento atribut jako implicitní, do dotazového řádku budeme zapisovat přímo morfologickou značku nebo posloupnosti těchto značek. Například zadáním posloupnosti značek k2.* k1gFnPc7.* získáme výskyty všech adjektiv, za kterými stojí substantivum ženského rodu v instrumentálu: tj. podobnými diskusemi, nebezpečnými dívkami, pravopisnýma chybama, nějakýma holkama atd. Označkovaný korpus KSK-dopisy1 - rozsah a spolehlivost morfologického značkování Morfologické značky (tagy) jsou výsledkem automatické lemmatizace (slovnímu tvaru v textu je automaticky přiřazen příslušný základní tvar – lemma) a automatické morfologické analýzy (danému slovnímu tvaru v textu jsou automaticky přiřazeny slovnědruhové a morfologické interpretace). Automatické morfologické analýze předchází tokenizace, tj. segmentace textu na jednotky, které v ideálním případě odpovídají textovým slovům, v podstatě jde však o zjednodušení lingvistického přístupu v tom smyslu, že slovní tvar se chápe jako řetězec znaků mezi mezerami, popř. jinými oddělovači, jimiž mohou být např. interpunkční znaménka. Automatická lemmatizace a automatická morfologická analýza přiřazují jednotkám textu (textovým slovům, token) všechny kontextově nezávislé interpretace. Morfologická analýza je obecně nejednoznačná. Nejednoznačnost je způsobena vysokou mírou homonymie způsobenou tvarovou homonymií uvnitř paradigmatu jednoho systémového slova, homonymií úplnou nebo částečnou (překrytí všech, či několika tvarů) dvou různých lexikálních jednotek, homonymií způsobenou funkčními i slovnědruhovými transpozicemi mezi jednotlivými (především neohebnými) slovními druhy. Míra koncovkové homonymie uvnitř paradigmatu jednoho slova podstatně vzrostla zařazením automatické analýzy možných substandardních tvarů, které se v korpusu soukromé korespondence vyskytují poměrně frekventovaně. Automaticky označkovaný korpus byl ručně disambiguován (z více interpretací lemmat a značek byla ručně vybrána jedna interpretace platná pro daný kontext). Po automatické analýze a ruční disambiguaci zůstalo 5 % neoznačkovaných popřípadě nedisambiguovaných tvarů. Z nich byla 1,6 % ručně doznačkována. Jednalo se o tyto typy: 1) interpunkce ( více teček, pomlček, ...) 2) ciferné výrazy (především data v dopisech) 3) pravopisné chyby (zapomě, myslym, ...) 4) substandardní tvary zájmen (všeci, všici, ...) a nesprávně použité tvary zájmen (mě/mně, mně/mě, jí/ji, ji/jí), které byly při ruční disambiguaci ponechány bez značek 5) grafické chyby (neúplné slovní tvary, spojení více slovních tvarů, slovní tvary rozdělené do více pozic, ...) 6) nejrůznější zkratky 7) cizí slova 8) substandardní tvary kondicionálů (aby, by, kdyby + jsem, sem, jsi, si, jseš, je, sme, jsme, ste, jste,..., bys ses, ...), které nebyly rozpoznány automatickou morfologickou analýzou, popř. disambiguovány při ruční disambiguaci 9) substandardní tvary slovesa být, které nebyly rozpoznány automatickou morfologickou analýzou, popř. disambiguovány při ruční disambiguaci 10) substandardní slovotvorné inovace (výkoňák, ...) 11) substandardní slovotvorné inovace pozdravů (čauky, čauec, ahojda, ...). Korpus KSK-dopisy1 je z 96,6 % lemmatizován a označkován morfologickými tagy. (Předkládáná verze je pracovní, není tedy ještě zcela spolehlivá. Momentálně probíhá její několikastupňová kontrola.) Nedisambiguované označkované tvary Některé označkované tvary byly záměrně ponechány nedisambiguováné, takže je lze vyhledávat podle několika lemmat a jim odpovídajících značek. Jedná se především o frekventovaná slova patřící k více neohebným slovním druhům, u nichž ruční disambiguace narážela již při značkování korpusů spisovného jazyka na značné obtíže (disambiguátor se nebyl schopen rozhodnout, více disambiguátorů docházelo pravidelně k rozporným rozhodnutím). Jejich seznam najdete zde. seznamnedisam.doc Do skupiny označkovaných nedisambiguovaných tvarů patří rovněž případy často se vyskytujícího chybného užití tvaru zájmena mě v dativu nebo lokálu. Tvar je označkován nejednoznačně dvěma možnými značkami [tag=“k3p1nSc3wH“] a [tag=“k3p1nSc6wH“]. Substandardnost tvaru naznačuje přítomnost atributu w s hodnotou H. Nedisambiguovány zůstaly také tvary adjektiva rád, ráda, rádo, rádi, rády, u kterých nebyl disambiguován rod, číslo a pád, takže např. tvar rád má tagy [tag=“k2gMnSc1“], [tag=“k2gInSc1“], [tag=“k2gInSc4“]. Poznámky: Kompromisem je označkování tvarů syntetického futura některých sloves pohybu tvořených prefixem po-/pů- připojeným ke tvarům indikativu prézentu (např. půjdu, poletím, poběží, poteče, ...). Tyto tvary se ve značce neliší od tvarů indikativu prézentu. Například: Tvar letím a tvar poletím má stejnou značku: [tag=“k5eAaImIp1nS“] Nedokonalostí automatického morfologického analyzátoru AJKA je značkování tvarů slovesa být, které mají prefix ne- vyjadřující negaci. Analyzátor nabízí u těchto tvarů lemma být nebo lemma nebýt, ale značka je vždy [tag=“k5eA.*“]. Například: Tvary nebýt, nebyl, není, nejsem, nejsu, ... mají lemma být, ale ve značce je hodnota atributu e A a nikoli N. Tato nedokonalost zůstala prozatím neopravena. Vynechané atributy a hodnoty V případě, že z kontextu nebylo možné jednoznačně disambiguovat hodnotu některého z atributů, byl při ručním doplnění značky tento atribut vynechán Například: ... tak mi připadalo , že nemá všech pět pohromadě ... byla tvaru všech přiřazena značka [tag=“k3nPc2“], která má vynechán atribut rod. Neoznačkované tvary Část slovních výskytů zůstala zatím neoznačkována (3,4 %, tedy 16 617 výskytů, 11 020 různých tvarů). K důvodům patřilo vysoké procento substandardních forem s nízkou frekvencí výskytu, jejichž ruční označkování je velmi náročné. Jde například o neúplná slova, samostatnná písmena, substandardní adaptace cizích slov atd. Objevilo se i množství nejednoznačně interpretovatelných jednotek. Sem patří například vlastní jména, u nichž nelze ani z kontextu určit rod (např. Ahoj Rady ...), dále neúplná slova, u nichž nelze jednoznačně rozhodnout, co bylo vynecháno (např. Te sme se prostě jen tak ze srandy postrkovali...) atd. Úplný seznam neoznačkovaných tvarů najdete zde. poslednifrekv.doc