Elektronická podoba SSJČ Pavel Smrž, Karel Pala (Fakulta informatiky Masarykovy univerzity) 1. Úvod Slovníky jako rozsáhlé zdroje lexikálních dat se dnes převádějí do elektronických verzí: ? slovníkové informace v elektronické podobě potřebujeme při vyhledávání informací, automatickém vytváření abstraktů, při strojovém překladu atd., ? s počítačovými podobami slovníků pracují dnes stále více i lidé. Práce se slovníky v počítačové podobě je rychlejší a pohodlnější, lze je snáze doplňovat a modifikovat, ? El. verze slovníků se dnes budují pomocí vhodných softwarových nástrojů, manuální sestavování slovníků je nepředstavitelně pracné a také velmi drahé, ? Výsledkem jsou slovníky v elektronické podobě a pokud možno v jednotném formátu, který vyhovuje stanoveným standardům, ? Nové formáty dovolují systematicky kontrolovat konzistenci lexikálních dat a snadněji je modifikovat při přípravě nových verzí. ? Většina českých slovníkových dat, která jsou dnes k dispozici (SSJČ, SSČ), nebyla původně určena pro počítačové aplikace. El. verze SSČ (nakl. Leda) vznikla relativně nedávno (1997). Převádět existující lexikální zdroje do elektronické podoby se vyplatí, i když je to spojeno s obtížemi: - získávání lexikálních informací je velmi nákladné a představuje i náročný intelektuální výkon, - převod je často nesnadný, protože relevantní informace nebývají přímočaře přístupné, - lex. data nebývají dobře strukturovaná a dostatečně konzistentní. - lex. data obsahují četné chyby díky tomu, že byla pořizována manuálně. Platí obecně, že manuálně vytvořené lexikální zdroje obsahují chyby vždycky. Lidský uživatel si s těmito nedostatky poradí, ovšem pro počítačové zpracování představují principiální překážku. Rozumným řešením proto je budovat slovníky s použitím počítačových technologií (tedy nikoli manuálně) a pak je uchovávat v univerzálním, široce dostupném a znovu použitelném formátu. Takové prostředí nyní poskytuje rodina formátů a nástrojů sdružená kolem (deskriptivního) jazyka XML. 2. Jazyk (a formát) XML XML (eXtensible Markup Language) (Bray et al. 2000) je standardem pro reprezentaci a výměnu (textových) dat. Představuje silný nástroj, který dovoluje: ? obecný způsob značkování všech typů struktur, ? zachycení vzájemných odkazů mezi nimi, ? víceúrovňové zanoření struktur. XML je tedy velmi vhodným prostředkem pro reprezentaci silně strukturovaných textových (ale i jiných) dat. Byl vyvinut zejména s ohledem na použití ve webových aplikacích, jde o zjednodušený dialekt SGML (Standard Generalized Markup Language). Je s ním spojena celá škála technologií, které např. dovolují: ? provádět transformace mezi dokumenty, ? definovat omezující podmínky na dokumenty, ? ověřovat struktury a odkazy uvnitř jednoho dokumentu i vzájemné odkazy mezi dokumenty. Slovníková data typicky obsahují: ? poměrně složité hierarchické struktury, ? ale také relativně nestrukturovaný volný text. XML formát dovoluje přesně definovat významové vztahy a vhodně měnit způsob, jímž jsou jednotlivé části textu tištěny nebo zobrazovány. Při práci se slovníkovými daty ve formátu XML můžeme využít existujících mechanismů pro přístup k datům a manipulaci s nimi -- obvykle se mluví o rodině standardů XML. Strukturu textu kódovaného v XML popisuje tzv. definice typu dokumentu (DTD, Document Type Definition). DTD definuje zobecněná pravidla pro strukturu a určuje explicitně, co je v kódování příslušného dokumentu dovoleno. Pro jazyk XML existují výkonné dotazovací mechanismy, které umožňují efektivně přistupovat k obsahu rozsáhlých dokumentů, např. XQuery (XML Query Language) (Chamberlin et al. 2001). XML nabízí řadu možností pro standardní výměnu slovníkových dat. 3. Zvyšování informační obsahu Slovníky obsahují různé typy informací kódovaných různými způsoby. Používá se různých strukturálních a typografických norem pro reprezentaci: ? morfologických informací, ? popisu významu heslového slova, ? homografů, ? lexikalizovaných flektivních variant, ? kolokací, frazeologismů, ? příkladů, kontextů atd. V lexikální databázi potřebujeme definovat jednoznačný způsob reprezentace všech těchto entit. Hodnota elektronických slovníků se podstatně zvyšuje, jestliže sdílejí společné značkování, tj. explicitní vyznačení jednotlivých prvků (částí) slovníkových hesel. Převod dat ze zdrojového do cílového explicitního formátu bývá označován jako proces zvyšování informačního obsahu (up-translation). Z aplikačního pohledu se jedná o cestu od výchozích slovníkových dat k jejich explicitnímu a tedy strojově použitelnějšímu tvaru. 4. Převod Slovníku spisovného jazyka českého z tištěné do elektronické podoby Projekt převodu SSJČ (osmisvazkového Slovníku spisovného jazyka českého) do formátu XML se realizuje v rámci komplexního grantového projektu GAČR 405/96/K214 (Čeština ve věku počítačů). Na převodu se podílejí dvě pracoviště a celý proces probíhá v několika fázích: ? V Ústavu pro jazyk český na Akademii věd ČR byla data SSJČ (stránky slovníku) naskenována, pomocí optického rozpoznávání (OCR) převedena do formátu MS Word (*.doc) a dále zkontrolována, aby se nejprve odstranily viditelné chyby vzniklé při optickém rozpoznávání. ? Laboratoř zpracování přirozeného jazyka (LZPJ) na Fakultě informatiky MU, dostala data ve formátu dokumentů MS Word, a to vždy deset stran textu v jednom souboru. ? Prvním úkolem v LZPJ byl tedy převod z formátu MS Word do základního formátu XML. ? Data byla převedena s použitím speciálně vyvinutého programu v jazyce Visual Basic, s nímž MS Word pracuje ve formě maker. Díky své jednorázové povaze nebyl tento krok časově příliš náročný. ? V další fázi se vyhledaly anomálie ve vstupním formátu (např. roztržená slova vzniklá chybným rozpoznáním přechodů mezi jednotlivými typy písma, konkrétně polotučným a normální kurzívou). Nalezené chyby v kódování byly opraveny. ? Závěrečnou a nejobtížnější fází převodu je transformace mezivýsledku do vlastního formátu XML odpovídajícího již cílovému datovému typu (DTD, Petkevič 2001). ? Ideálně odpovídá typ elementu ve slovníku přímo některému typu písma, např. ? normální kurzíva vyznačuje definici významu, ? v hranatých závorkách se vždy uvádí [výslovnost], ? určité skupiny údajů jsou tvořeny hodnotami, které musí patřit do předem daného seznamu (např. výčty zkratek, jména autorů). SSJČ nepracuje se zkratkami konzistentně, např. je typické, že jedna zkratka má několik variant (biol., biolog., styl., stylist., ) Většina podstatných těžkostí při převodu je dána právě nekonzistencí struktury hesel: ? v rámci jednotlivých hesel se rozdílně uvádějí příklady, kontexty a kolokace, ? hesla v SSJČ se liší ve svých strukturách, tj. na tom místě v hesle, kde má standardně být údaj o významu, můžeme snadno najít jiný údaj Tyto inkonzistence pak znemožňují plně automatický převod hesel z původní podoby do podoby plně konzistentní. V současné fázi proto pracujeme s dvěma variantami XML: a) nízkoúrovňové formát (viz níže příklad 1) je výhodnější pro opravování nalezených chyb, b) formát vyšší úrovně -- odpovídá cílovému DTD (příklad 2), je vhodný pro některé dotazy na konkrétní části hesel, i když heslo obsahuje nesprávně rozpoznané prvky. Nalezené chyby se postupně opravují: nejčastěji jde o nesprávně rozpoznané typy písma, tyto chyby znemožňují automatický převod do výsledného tvaru. Do speciální kategorie patří nekonzistence a chyby vyskytující se už v tištěné verzi slovníku, např. jde o nekonzistence v popisu významů heslových slov nebo chybné struktury hesel. Pokud se na ně přijde, zaznamenávají se odděleně, abychom je kdykoli mohli konfrontovat s původní podobou dat. K odhalování těchto chyb připravujeme speciální nástroj -- analyzátor slovníkových hesel v SSJČ či SSČ (parciální syntaktický analyzátor pro češtinu DIS, Žáčková, 2001). Je ovšem otázka, jak daleko lze v těchto opravách jít, a kolik to může stát. Příklad 1: Nízkoúrovňové kódování dat -- zde jsou vyznačeny jen různé typy písma terorismus zp ůsob vlády vymáhající terorem poslušnost; hrůzovláda, krutovláda, despotismus: vojenský t.; nesnesitelný t.; demagogie a t.; přen. expr. to je t., nedejte si to líbit Příklad 2: Formát kódování hesla SSJČ odpovídající cílovému DTD terorismus socialismus způsob vlády vymáhající terorem poslušnost hrůzovláda krutovláda despotismus vojenský terorismus nesnesitelný terorismus demagogie a terorismus přen.expr. to je terorismus, nedejte si to líbit 5. Manažer lexikálních databází kódovaných v XML Pro práci se SSJČ a libovolnými dalšími slovníky, jejichž data jsou uložena ve formátu XML byl v LZPJ FI MU vytvořen systém MAXXL. (Karásek, 2000, DP). Jeho hlavní rysy jsou: ? umožňuje efektivní ukládání a vyhledávání slovníkových dat, ? je postaven na architektuře klient/server, ? serverová část data vyhledává a ukládá, ? klientské programy zprostředkovávají komunikaci s uživateli, usnadňují definici dotazů a prezentaci vyhledaných záznamů. MAXXL je napsán v programovacím jazyce C++ s rozhraními pro další jazyky (Perl, Python, Java). Uživatelé mohou modifikovat výstup tohoto nástroje tak, aby výsledek popisoval zamýšlenou strukturu dokumentu přesně. Lexikální databáze je v systému MAXXL chápána jako množina dokumentů XML. Systém MAXXL reprezentuje data v UNICODE, konkrétně v kódování UTF-8. Lze tak zpracovávat data v libovolné současné abecedě. Systém definuje vlastní dotazovací jazyk. Výsledek dotazu má formu posloupnosti elementů XML nebo přímo sledu slov. K dispozici jsou operátory pro přesnou shodu, prefixové vyhledávání a lokalizace obecných podřetězců. MAXXL umožňuje i tzv. morfologickou expanzi dotazů v různých jazycích -- nabízí mechanismus integrace externích morfologických analyzátorů: ? generuje všechny slovní tvary pro daný tvar včetně gramatických kategorií, ? k zadanému slovnímu tvaru nabídne jeho základní tvar (lemma), ? k zadanému slovu přiřadí jeho ohýbací vzor (paradigma). Systém lze přímo napojit na korpusový manažer Manatee navržený a implementovaný na FI MU (Rychlý 1999). Tak lze splnit požadavek lexikografů -- pracovat při budování či úpravách slovnímu s reálnými -- korpusovými daty, slovníková data lze přímo porovnávat s daty korpusovými, která jsou k dispozici v konkordancích získaných z korpusů 6. Výsledky Vlastní výsledky jsou k dispozici na CD ROM, který obsahuje data SSČ a SSJČ a prohlížeč MAXXL (s pracovním názvem gslov). Toto CD bylo vytvořeno v Laboratoři zpracování přirozeného jazyka FI MU (pala@fi.muni.cz). ? V další verzi tohoto CD bude připravena (do konce r.2001) integrace automatického morfologického analyzátoru ajka (Sedláček, Smrž, 2001) do SSJČ a SSČ (tj. do systému gslov). Oba slovníky tak získají novou kvalitu -- dovolí na požádání získávat údaje o: ? paradigmatech heslových slov, ? segmentaci slovních tvarů, ? gramatických kategoriích, ? generovat příslušné slovní tvary, ? a také je lemmatizovat. 6. Literatura BRAY, T. et al. 2000. Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation. http://www.w3.org/TR/1998/REC-xml. COPESTAKE, A. 1995. ACQUILEX. http://www.cl.cam.ac.uk/Research/NL/acquilex/. CHAHUNEAU, F. 1994. Current Approaches to SGML Up-translation. http://www.oasis- open.org/cover/fcha.html. CLARK, J. 1999. XSL Transformations (XSLT). Version 1.0. W3C Recommendation. http://www.w3.org/TR/xslt/. CLARK, J. 2001. XSL Transformations (XSLT). Version 1.1. W3C Working Draft. http://www.w3.org/TR/xslt11/. ELLIOTT, L. 2001. How the Oxford English Dictionary Went Online. Ariadne, č. 24. http://www.ariadne.ac.uk/issue24/oed-tech/. IDE, N. 2000. The XML Framework and Its Implications for the Development of Natural Language Processing Tools. In: Proceedings of the COLING Workshop on Using Toolsets and Architectures to Build NLP Systems. KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků. Diplomová práce na Fakultě informatiky Masarykovy univerzity v Brně. Petkevič, V. 2001. Návrh DTD pro SSJČ -- 1.verze, rukopis. RYCHLÝ, P.,Korpusové manažery a příslušná rozhraní, Disertační práce, FI MU BRNO, 1999 Sedláček, R. -- Smrž, P. 2001. A New Czech Morphological Analyser ajka. In: Proceedings of the 4th International Conference on Text, Speech and Dialogue, September 2001, Železná Ruda, Springer Verlag, Berlin, p.100-107. Smrž, P., Využití formátů XML pro ukládání lexikálních databází, Sborník konference SLOVKO 2001, říjen 2001, Bratislava. 7. Obdobné a příbuzné projekty Jako příklad transformace tohoto typu uveďme převod rozsáhlého výkladového slovníku OED (Oxford English Dictionary) Online (Elliott 2001) do strojově čitelné podoby. ? V polovině 80. let se nakladatelství OUP (Oxford University Press) rozhodlo vydat druhé vydání svého největšího slovníku, tj. originálního 12 svazkového souboru se všemi dodatky. ? Elektronická verze byla potřebná pro efektivní práci s pozdějšími revizemi OED. ? Přibližně 150 písařek přepsalo celý OED a po sérii mnoha oprav byl slovník nakonec v roce 1989 úspěšně vydán. ? Kódování OED neodpovídalo plně SGML, "vzhledem k unikátnímu obsahu a dlouhému vývoji editorského stylu", nebylo možné svázat celý slovník jednotným formátem. ? I dnes je OED revidován pomocí vlastního značkování a speciálních softwarových nástrojů vyvinutých na zakázku. ? Jasně jsou identifikovány definice výrazů, výslovnost, variantní ortografie, etymologie, doklady a jejich datace, včetně jmen autorů a názvů děl, z nichž je citováno. ? Náklady na vývoj programových produktů OED Online činily 400.000 USD a nakladatelství OUP utratilo přibližně další milion USD marketing, konzultace atd. 7