PA153 Počítačové zpracování přirozeného jazyka 08 - Lexikografické nástroje a počítačová lexikografie Karel Pala, Adam Rambousek Centrum ZPJ, Fl MU, Brno 16. listopadu 2015 Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie Q Lexikografie • Uvod • Historie • Slovníky a počítače Q Počítačová lexikografie • Reprezentace dat • TEI • LMF • Dictionary Writing Systems Q Tvorba slovníku • Lexikálni databáze • Slovník Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 2/18 Lexikografie • PLIN035 Počítačová lexikografie • podoblast lexikológie • lexicography, lexikografie ► the activity or occupation of compiling dictionaries (Oxford d.) ► the editing or making of a dictionary (Merriam-Webster d.) ► the job of writing a dictionary (Macmillan d.) • praktická lexikografie • teoretická lexikografie - analýza a popis slovní zásoby, teorie o prvcích slovníku, skupinách uživatelů, hodnocení • Slovník národního jazyka náleží mezi první potřebnosti vzdělaného člověka. Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 3/18 Historie • hliněné tabulky z Ebla (Sýrie), cca 2500-2250 př.n.l. ► sumerština - eblaština • The Oxford English Dictionary (A New English Dictionary) ► 1857, Philological Society, R. C. Trench, kritika slovníků ► 1879, James A. H. Murray jmenován hlavním editorem ► 1882-1928, vychází 12 svazků, 15 487 stran, 240 000 hesel Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 4/18 Historie • Kancelář Slovníku jazyka českého, 1911 ► sběr slovníkového materiálu, dobrovolníci ► výpisky z prózy, básní, odborné literatury, publicistických článků ► Příruční slovník jazyka českého, 1935-1957 ► 10 824 stran, 250 000 ► hesel cenzura "nežádoucích spisovatelů" Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 5/18 Slovníky a počítače • 60. léta - používají se počítače, lexikografové píší na papír, specialisté přepisují do databáze, Brown Corpus • 1978, Longman Dictionary of Contemporary English ► první s omezeným slovníkem definicí, kontrolováno strojově ► kódování pro NLP výzkum • 1980, COBUILD, University of Birmingham + Collins ► korpus současných textů (Bank of English) ► 1987, Collins COBUILD English Language Dictionary ► první slovník založený na korpusových datech ► nový styl definice - celé věty ► If a person, animal, or other living thing is killed, something or someone causes them to die. • 90. léta - vývoj specializovaných systémů pro tvorbu slovníků • 1987, Text Encoding Initiative Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 6/18 XML PB138 Moderní značkovací jazyky extensible Markup Language - značkovací (meta)jazyk pravidla, jak má vypadat správně vytvořený dokument - snadné strojové zpracování a výměna informací konkrétní názvy značek určuje uživatel (standardy, vlastní) elementy obsah bez obsahu lze zkrátit na atributy Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie Popis struktury a kontrola obsahu • DTD (Document Type Definition) ► seznam elementů a atributů a vztahy mezi nimi ► nekontroluje obsah ► • XML Schéma (XSD, XML Schéma Definition) ► popis obsahu a struktury XML dokumentu, schéma samotné je XML dokument ► elementy atributy struktura ► možnost určit vlastní typy obsahu (např. opakující se adresa) ► kontrola obsahu (např. číselný rozsah, regulární výrazy, povolené hodnoty) Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka 8 Zobrazení XSLT - eXtensible Stylesheet Language (Transformations) převod XML na jiné formáty ► jiné XML značkování, text, HTML, LaTeX, PDF šablony pro části XML dokumentu, postupné procházení dokumentu funkcionální programovací jazyk ■ SSJC 5Lfl«nJ; ipLioYnihajjcyki rtfkttur lov ■llnlťplí 1. stiháni a zmocňování se zvife (r\ejč odstřelem}, chytím ryb L jelenů, diYokyíh V.aíhen, velryb; L loso-tú, L perel; dob a lovu, uspctfádatl na medvčdy; vyjet na L; právo lovu^ L odstřelem, chjtánim, lapámrn, L lesnĹ, polní, vodní; hromadný L h.on. Híka vjíla na l, lovu zdar' (lo-Hekýpaiérův) 2. -iFr cfytání sháněni čehokolrv, vůbec získáváni, přt kterém se uplatni obratnost o íittior*ťy of Lůuííiíní fantrľlWictJ Rélersnc&sMinĎusa: savAialfů f) j. sandále ('] sarujwetiC) •von sanoJs (') sarifller ("j sang-mílé(") sarigsue (') nrl Isarao ■sarrs-HHur (") sans-Jole f) MOLU a saper|1]C) i sarg n fans-coaur (') saňl i- B L*fftňi9 SSfii ĽBrt*iti*SiUň^3ňiH«n!fie(3=2e09^Ky2S2O <--Pronunciation (axt '90' L-.: PůSŮroup AKoNuniDef=l.PartOISpee(íi=íwep. B Sense: 1 Autohíwnber^l UTE: TE=**thOot Example' Example^ "On ee*rt laire sanjiravaiiie ConrtMnaUDn: LemmaS*|jn=sarra.Desss,ElymDlc S-TE: TE"MK«65S Ľ TÉ TE=C*3MlftJ* si ComMialion; Lemma5jgn=saris w*in3issanc»r *-t£: T£=unconsc>OUS 3 ComíMnalion: Lemma5.ifn=sans deute.Etyrnclo j-TE TEsnOdOuH Com^rialíon; LetťimaSton^sans- (que).efymriOlCK _ i >; Convp LemnuSlgn fotu Au** I Pirsourir.-~j [PCDATA) ^ PaŕWfSjp*** [AJLBJLSJLOJ fJLEL LSJLiUJ. LJ. UL.]^EJL LUJ ^ >^J ^ ^ L3.1XXU. JLl JC <^£J H sans. |sd] prep. 1 wLhoul •■ C est bon quand tupeux danser sans muslque. It's good when you can dance without musn, (EV) - "O?; peurfalr? sons povatfier ie dsmanche. We can do u without working on Sunday. ■ tan* cefinaHunc* uncontdaut m sans doule no ^Hibl, Mlhaut 3 doubl nt>rj sans que quefyu'un soti la. And we waked ihe body, of course. We would've flftfr left the body units-j Wftieone was th*re. {TB) fr wthgut * "7"o«rw pas bettu 4l. r>s*l .GuuO.Hi02,WhS3> [Admin] Jív« řWJt qít'un sans-cttttr. You're Ěans.tfirur [sdkůril rt. 1 hMftltíí. <ňrti. ŕtiľoss ŕtfson . ncihaij- bui a cniel man. (SB) [Admlnt SB ns.joia [sdjwa] n. rt. 1 íjíeJt blue tír:n <Ĺoc; Lv66. R»31>[Admift] Santa Claus |?dtakl5iF síiekJsil rt.prtir. 1 Sanda Claus |ftdmm] u niv (sdts| flLf. 1 health - J'ot pas pu w 'wnpicker de inarcher á luS. Jt Sis, "li y a uns quaiíonj 'atnurats it dvnuwdw. Qttoí e est tu fait pour a tanze? " Ii äňľí. "Je naj au Ďalpr&cft* mus its saSrs." I tŕuMnL! help bin walk over v> him. I said. "There's ä querticn I'd Bcŕ » ask you. What do you do for ytott healths" He said, "J go 1» dance almost every night.'" (ch: id aetge sw ia comerlUTe) m a vcrtie sanEs to your liE-alh iDa:>-> ■ en bonne santé in good health ^DaSJ :■ ■ en mauvaňa sanlé hi had health -«DaS4> Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 14 / 18 Lexikální databáze • podrobná strukturovaná jazyková databáze ► (nyní obvykle) doklady z korpusu ► gramatické údaje ► valence, vzory ► styl, užití, oblast... ► vztahy mezi slovy • podklad pro slovníky a výzkum • PraLeD (Pražská Lexikální Databáze) • DANTE (Database of ANalysed Texts of English) Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 15 / 18 vorba slovníku tvorba slovníků je drahá, náročná a trvá dlouho, konkurence B. T. Sue Atkins, Michael Rundell: The Oxford Guide to Practical Lexicography Design De p t dictionary type maríte ŕ Sr user contents price,, budget, schedule Editorial Dept user profiles extent /contents styles £ sümpfe entries develop dictionary print design e-des\gn Marketing Dept LAUNCH DICTIONARY IT Dept Software House Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 16/1 Obsah slovníku • makrostruktura - heslář (+předmluva, přílohy...) • heslo1 = lemma, entry term, heslové slovo, headword ► obvykle nominativ sg., slovesa v infinitivu ► části slov, spojení slov • heslo2 = heslová stať, entry • mikrostruktura - struktura jednoho záznamu ve slovníku ► kontrola pomocí softwaru ► usnadnění orientace pro čtenáře Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie 17 / Elektronické slovníky • více informací (CD, DVD, web) ► místo pro zobrazení • multimédia, vyhledávání, navigace, aktualizace • delší vysvětlující články, odkazy na další zdroje • zobrazování údajů podle profilu uživatele (časté operace) • propojení s korpusy - ordnet.dk, DWDS.de... • kombinace zdrojů, stahujeme data - Wordnik.com • obsah vytvářený uživateli (90-9-1) - Wiktionary, slovnik.zcu.cz... • Macmillan - přechod na digitální verzi • posun od produktů ke službám Karel Pala, Adam Rambousek PA153 Zpracování přirozeného jazyka Počítačová lexikografie