Popis platformy DEB II Projekty platformy DEB DEBu - Lexikografická platforma pro vývoj slovníkových aplikací Adam Rambousek Centrum zpracování přirozeného jazyka Fakulta informatiky, Masarykova univerzita xrambous@f i.muni.cz deb@aurora.fi.muni.cz http://deb.fi.muni.cz Adai Adai Uvod Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI Adai Uvod Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI Slovníky a počítače ■ 60. léta - používají se počítače, lexikografové píší na papír, specialisté přepisují do databáze, Brown Corpus ■ 1978, Longman Dictionary of Contemporary English ■ první s omezeným slovníkem definicí, kontrolováno strojově ■ kódování pro NLP výzkum ■ 1980, COBUILD, University of Birmingham + Collins ■ korpus současných textů (Bank of English) ■ 1987, Collins COBUILD English Language Dictionary ■ první slovník založený na korpusových datech ■ nový styl definice - celé věty ■ If a person, animal, or other living thing is killed, something or someone causes them to die. ■ 90. léta - vývoj specializovaných systémů pro tvorbu slovníků ■ 1987, Text Encoding Initiative Adai Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI XML ■ PB138 Moderní značkovací jazyky ■ extensible Markup Language - značkovací (meta)jazyk ■ pravidla, jak má vypadat správně vytvořený dokument -snadné strojové zpracování a výměna informací ■ konkrétní názvy značek určuje uživatel (standardy, vlastní) Adai Úvod Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI Zobrazení XSLT - extensible Stylesheet Language (Transformations) ■ převod XML na jiné formáty ■ jiné XML značkování, text, HTML, LaTeX, PDF ■ šablony pro části XML dokumentu, postupné procházení dokumentu ■ funkcionální programovací jazyk SSJC ?lT?io*MV«pJop 3. vyfJtrfrft lovu, Útaťrli. fcofal vřítit w ! bohatvm lovem t „V.™. rrl'iap pf.n «pr >-.«-«. titťanjuiebrcnaiiln Hůiovm nittůdůi. SSCstgfnft tpitavn) ÍHlmy kn um 1. Icvem'Pilft o ryb lor keroptvi for na :an«, Mka *y!ta na lo», Z úlovek fiyno] fcaŕ»l fljM| Eat bohatý lo», Adai Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI Ukládání ■ XML databáze ■ ukládají se přímo XML dokumenty ■ vyhledávání - XPath, XQuery ■ např. eXist, BaseX, Sedna Adai Uvod Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI TEI ■ Text Encoding Initiative, http: //www. tei-c. org/ ■ TEI Guidelines (aktuálně verze 5 z roku 2007) ■ XML formát pro sémantický popis textových dokumentu ■ velký rozsah značek ■ TEI Lite - osekaná verze, "90 % potřeb 90 % uživatelů" m romány, poezie, divadelní hry, dokumentace, slovníky, korpusy, grafy, rukopisy, zarovnání, odkazy, změny textu, notové zápisy... ■ nástroje - sada XSLT pro převod na LaTeX, docx, EPUB, HTML Adai Uvod Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI Úvod DEB - Dictionary Editor and Browser ■ platforma pro vývoj slovníkových aplikací ■ všechna data ve formátu XML, Unicode m libovolná struktura, jakýkoliv jazyk ■ architektura klient-server ■ server ■ práce s daty, velká část funkcí ■ databázové úložiště ■ správa uživatelů, slovníků, spolupráce ■ rozděleno do modulů, spojování podle potřeb ■ klient ■ omezená funkcionalita ■ grafické nebo webové rozhraní Adai Uvod Popis platformy DEB II Slovníky a počítače Projekty platformy DEB Reprezentace dat TEI Adai Popis platformy DEB II Projekty platformy DEB DEBDict ■ prohlížeč slovníků ■ 7 slovníků češtiny pro veřejnost, další přístupné jen pro část uživatelů ■ napojení na morfologický analyzátor ■ data z externích zdrojů ■ přes 700 uživatelů (podepsané prohlášení) Adai DEB Prohlížeč slovníků všechny slovníky w | kód ▼ | Hledat | □ hledat i v definicích ô Nastavení 55]( slovník spis jaz. českého SCS slovník cizích slov S5Č slovník spis. češtiny 5f5 slovník českých synonym íŕiĽ slov. fráze a idiomy sůu neslov fráze a idiomy FSlr příruční sl. jaz. českého ěa" SSJ C Slovník spisovného jazyka českého kód -u m. <6. j. -u) (z Fr.) odb. předpis pro převod jedné soustavy znaků pro sdělování zpi do jiné takové soustavy: používat kódu; tajný k. známý jen určitému okruhu osí telegrafní k. předpis pro převod elektrických, optických n. jiných signálů dc soustavy jazykových znaků; kódový příd.: k. název; k-á zkratka kódovací «| Český WordNet J Concise Oxford English D. J Oxford Dictionary of English J Oxford Thesaurus of English ěa" Slovinský slovník ěa" Komplexní slovník ruštiny [][ Diderot příd. odb. týkající se kódováni sloužící ke kódování: k. soustava kódovati nad. i dok. odb. (co) sestavovat, sestavit podle kódu: k. telegram kódový v. kód |G| Google 'ŕ Answers.com W Wikipedia ^ Seznam Encyklopedie gj CIA World Factbook =$r mapa ČR £j morf. analyzátor ajka SSC Slovník spisovné češtiny kód -u m 1. systém znaků pro přenos informace telegrafní, dálnopisný kód, jazykový kó 2. výp. tech. pravidla pro jednoznačné přiřazení významu k znakům n. signálům kódovat ned. i dok. sestavovat sestavit podle kódu kódovat zprávu, kódovací pí íd r sloužící ke kódování, kódovací systém, PSJC Příruční slovník jazyka českého Popis platformy DEB II Projekty platformy DEB Praled ■ příprava lexikální databáze češtiny v Ústavu prajazyk český PDEV (CPA) ■ editace slovníku vzorů anglických sloves ■ varianty také pro češtinu, italštinu a španělštinu TeDi - Terminologický slovník ■ společný projekt s Fakultou výtvarných umění VUT ■ glosář výtvarných pojmů ■ multimediální prvky ■ nově také Divadelní fakulta JAMU, Agronomická fakulta MU Adai Piter 1 C Entry r| ... 1 DEC ... = amuse 1 1JJJJ anaesthetize 2 m i ustt j anger 2 74G7 3 .11" nl'"- 1 3144 !i anglrfize 2 122 L anchor J' animate 3 4939 L- ar.r^al i 221 s annex 3 2277 annihilate L- annotate i nois ■j- -IITr i.it.-. 1 S2547 L ■ ii i i;v 2 1*130 5 annul t 652 1 anoint i i:b5 1 answer 13 124214 9i OlC.ILJUIIJl.- 1 7B2 S arteaat= 1 1E2 I .ii ch□ lo-^izc 1 93 I arithrop-OTio'ph BU i jntiop JTC 2 ape 1 B92 V. apolog ze 1 179B3 V apostrc-phie 1 JÜ appal 1 K6 1 appeal 1 d0 3O3 Add Copy I Corpora | Preview | Renumber| Delete | Close| T erns for: answer J Sample size i Semantic class i A5pectu< flMumiirl] antw«r [NO OBJl {th« [ClAUSEl I lOUOTEl } IfHjmanl] -avs ■ mat I CLAUSE I | [QUOTE]} in response to a question or statement by [[Human]] auswar [[Ask Activity]] l5UB|[Human]] says or writes something mtended to provide relevant information in re: elWs lOBjIMk Activity]] -. [[Human Jl inswtr [[Tttaohon*)] ISUBJlHuman]] speaks into lQBJlTelephcne]| after it rings - [[Human i)l*ntw«r[NQQBj] ixa ([Human 2]] I to ([Godlli [SUBJlHuman]] has an obligation to account for hisrtier actions to [[Human 2 | God)] S [[HumaMl intwtr [[nail]] [SUBJlHuman]] writes a letter in response to [QBJfMail]] from . [[Human)1 answer [TSpeech Act = ActuaMionJl [iHLimanll nr wrilf"» ■^nm-pthinn inhpnfl^d trc answer Pattern 1 subject varb form show: t I Save | Save & close-1 Close | □ Role □ Lexset □ Atlr. 0 no .in f d adverbial □ no advert la □ optional I □wAWIVl □-iW 0 that [CLAUSE I □ Wh-[CLAUS6I □ I QUOTE] primary implication [ [[Human] j MV5 {that [CLAUSEJ | [QUOTE)} in response to a question o-r statei [j] idiom I ; 1JÖJ v>rt>5 ibfc. J lřfci_rditíLre Fieila ňŕlľŕii [DľAľiíkí. dľilikAČnn sramon kŕv ^ File Eriit Viěw Gů fiofiknwkj Tňůls Wíihí. :,- H*lp (4} ^ K https;^appllq.fi.inuni,t:ž:801Q/tgdi?ai:twr-edit£iid-adre5a_lg | 5«*rch J ■ä Home QBooknwks Autor: ID; adresa [grafická dedikacnO-11604343501 obf>r [ fcnesba-grafika ^| hesločesky anglicky [adresa {grafická, dedikaŕní]_ [address německy francouzsky lAdresse f. [adresne 1. varianty r styl. příznak [ standard. knHni H definice součást značení díla, starých grafických listů ob sanující jméno ci obchodní označeni vydavatele nakladu rytin, leptů atp, Trvale obsažena ve vlastním tisku. příklady nadpůjem |znaĚeni díla pod pojem např. pinxit invenit. delíneavit inciat. j | + | morfologie |.yž.znémr, pjvodnézfr. | [ mnra;ii | Hávrat bez ukrženi J E3 HgD^ oone Popis platformy DEB II Projekty platformy DEB DEBVisDic ■ editor slovníků typu WordNet ■ samostatný modul pro každý jazyk (modifikace) ■ použit pro tvorbu několika wordnetů ■ poskytuje API - napojení externích aplikací ■ možnost rozšíření a modifikací Adai I [n] ciphers. cypher:4, cryptograph!, sea ] code flagl. nautical signalflagl I code ot conductl, code of behavior 1 < Tree R it Query Xml| POS: n ID: ENG2U 06256978-n Synonyms: code:l, codifications Definition: a set of rules or principles (especially written ones) Domain: SUMO/MILO: i itteii.......mini' ,ii i■ ■ n: 1. v. i n language:! > [enq derivative! codify: - [engderivative] codify-Bushido:! legal code:! building rpdi dress code;] sanifarv mi Highway i <>6iko;c.:2 Definition: uvvolo Kauduaiu r| apxciu r) voucoi ypanTQiu -->> ypanxri EnvKoiiioiiin:! >nyr it Query Xml | ► as: 1 1£ : 1 -3* : 1 : 1 n!' '.'I 3 : 1 > 1 * : 1 >*f : 1 >~rf. V: : i Popis platformy DEB II Projekty platformy DEB Adai