Ontologie 27. 3. 2009 3. 4. 2009 předmět: Organizace Znalostí přednášející: Silvie Kořínková Presová — obecně akceptovaný výklad ontologie explicitní specifikace konceptualizace (Gruber, 1993) — modifikace (Borst cit. dle Svátek, 2002) formální specifikace sdílené konceptualizace ¡ konceptualizace – systém pojmů modelující určitou část světa ¡ specifikace – ontologie prezentuje konceptualizaci v konkrétní formě ¡ formalizace – ontologie by měla být strojově zpracovatelná ¡ sdílení – ontologie je výsledkem konsensu určité zájmové skupiny lidí Co je ontologie? — Proč byl termín ontologie (označení pro filozofickou disciplínu) převzat oblastí umělé inteligence? ¡ Artificial Intelligence (AI) deals with reasoning about models of the world. Therefore, it is not strange that AI researchers adopted the term ontology to describe what can be (computationally) represented of the world in a program ". (Studer et al, 1998: 25, cit. v Arano, 2005) — zájem nejrůznějších oblastí – znalostní inženýrství, znalostní management, vyhledávání informací, WWW aj. — ontologické inženýrství - moderní oblast informatiky, která se zaměřuje na návrh, implementaci a aplikaci ontologií (Svátek, 2007a) Výklad TDKIV — Jazykové, metodické a softwarové nástroje pro explicitní pojmovou reprezentaci skutečnosti, případně samotný výsledek této činnosti. Využití nachází především ve znalostním managementu a v pojmovém vyhledávání informací. KTD Jednoduché vers. strukturované ontologie (Slavic, 2005) — Jednoduché o. – kategorizační schémata (v rámci např. předmět. katalogů), slovníky s definovanými hierar. vztahy (zejména tradiční SJ - deskriptorové SJ, systematické SJ) — Strukturované o. – strojově čitelné zakódování hierarchických vztahů a informací o vlastnostech pojmů a omezení, které se vztahují k hodnotám těchto vlastností Užití ontologií (Chowdhury, 2007, s. 176 ) • pro organizaci znalostí a informací • poskytuje řízený slovník použitelný lidmi i strojově ke zpřístupnění a správě informací • organizace a management stránek • využití základních, zastřešujících ontologií individuálními aplikacemi (rozšíření určité části původní ontologie o specifické hierarchie, interoperabilita) • podpora při prohlížení a vyhledávání Užití ontologií • odstranění významové nejednoznačnosti – stejný termín - člen více tříd - kontext vyplývající z jeho umístění v hierarchii napomáhá rozlišovat různé významy termínu • navýšení získaných informací (uživatelem/aplikací) o další informace z příslušných tříd, podtříd, vlastností v ontologii • sdílení porozumění struktuře informací mezi lidmi nebo softwarovými agenty Metodologie tvorby ontologií — různé metodologie — Základní pravidla při tvorbě ontologií (Noy, 2009) • Neexistuje jediný správný model domény – vždy existuje více realizovatelných variant. • Vývoj ontologií je opakující se proces. • Pojmy v ontologii by se měly vztahovat k pojmům a vztahům v oblasti, k níž se ontologie váže. — ukázky v editoru ontologií Protégé (http://protege.stanford.edu/), verze 3.4 – Protégé -Frames – vychází z modelu ontologie, která se skládá z množiny tříd hierarchicky uspořádaných, z množiny slotů (vlastností) asociovaných s třídami z množiny instancí – individuálních případů pojmů — editory ontologií – nástroje pro tvorbu a správu ontologií, obvykle používají některý z jazyků pro reprez. ontologií, některé umožňují export do jiných jazyků ¡ více viz Denny, 2002, 2004 Výklad ontologie z hlediska tvorby ontologií — Ontologie je formální, explicitní popis ¡ pojmů v doméně (třídy, někdy též pojmy) ¡ vlastností každého pojmu popisující různé rysy a znaky pojmů (sloty, někdy nazývány roles nebo properties) ¡ omezení slotů (fasety, někdy nazývány role restrictions, constraints). ¡ často, ne vždy popis individuí (instancí) — Třídy jsou středem zájmu většiny ontologií - popisují pojmy v doméně. ¡ Např. třída vín reprezentuje všechna vína. Specifické víno je instancí této třídy. — Sloty popisují vlastnosti tříd a instancí. Např. Rulanské šedé výběr z hroznů 2000 – suché, plné víno neutrální chuti, výrobce – Vinařství Hrbáč ¡ slot 1 obsah cukru hodnota suché ¡ slot 2 plnost hodnota plné víno ¡ slot 3 chuť hodnota neutrální ¡ slot 4 výrobce hodnota Vinařství Hrbáč Příklad metodologie (Noy, 2009) Základní kroky: — Vymezení domény a rozsahu — Zmapování existujících ontologií — Vyjmenování důležitých termínů v ontologii — Definování tříd a hierarchie — Definování slotů — Definování faset slotů — Tvorba instancí (individuí) Vymezení domény a rozsahu — Jakou doménu bude ontologie pokrývat? (reprezentace jídla a vína) — Jaký je účel ontologie? (navrhnout vhodné kombinace jídla a vína) — Na jaké otázky se bude pomocí ontologie odpovídat? – tzv. kompetenční otázky – slouží též k určení rozsahu ontologie (Obsahuje ont. dost informací? Vyžadují odpovědi danou zvolenou specifičnost?) Ukázka modulu Queries Zmapování existujících ontologií — Proč převzít ontologii? ¡ efektivita ¡ interakce s nástroji užívající jiné ontologie ¡ vytvořená ontologie je již prověřená nějakou aplikací — Na vyjádření ontologie (ontologický jazyk) často nezáleží, protože tzv. knowledge-representation systems umí importovat a exportovat ontologie. Seznamy dostupných ontologií - příklady — Ontolingua ontology library (http://www.ksl.stanford.edu/software/ontolingua/) — DAML ontology library (http://www.daml.org/ontologies/) — ProjectsThatUseProtege http://protege.cim3.net/cgi-bin/wiki.pl?ProjectsThatUseProtege — vyhledávací služby - Swoogle, OntoSelect , Watson Vyjmenování důležitých termínů v ontologii — seznam všech možných termínů Pomocné otázky — O jakých termínech budeme něco tvrdit či je vysvětlovat? — Jaké mají tyto termíny vlastnosti? — Co chceme říci o těchto termínech? Definování tříd a hierarchie — Uspořádání pojmů do tříd a tříd nižších řádů, obvykle na základě hierarchického vztahu, nejčastěji generického (rod-druh). tvorba taxonomie — třída - skupina klasifikovaných pojmů vzniklá na základě shodných charakteristik za účelem definování sémantických vztahů mezi nimi (TDKIV) ¡ příklad - třída všech vín, třída bílých vín některá vína jsou bílá, ale všechna bílá vína jsou vína Způsoby tvorby hierarchie — top-down – nejprve se definují nejobecnější pojmy a následně se specifikují — bottom-up – definují se nejspecifičtější/nejužší pojmy, které se následně organizují do obecnějších/nadřazených tříd — combination – vyberou se nejdůležitější pojmy a ty se následně generalizují či specifikují Ukázka vytvořené hierarchie tříd Definování slotů – vlastností tříd — sloty – vlastnosti tříd popisující různé rysy a znaky (vnitřní struktura pojmů) popisují vlastnosti instancí třídy a vztahy mezi instancemi — Samotné třídy neposkytují dostatečný počet informací pro odpovědi. — Pro každou vlastnost (slot) ve vytvořeném seznamu se musí určit, jakou třídu popisuje. ¡ třída VÍNA může mít následující sloty: vůně, plnost, cukernatost, barva, výrobce ¡ třída VINAŘSKÝ ZÁVOD – sloty: lokace, produkce — Slot by měl být připojen ke třídě nejvyšší úrovně, pokud ta nese danou vlastnost. Definování slotů – vlastností tříd — typy vlastností ¡ vnitřní – vůně, barva, plnost vína ¡ vnější – cena, název vína ¡ časti, pokud je objekt strukturován – chody jídla ¡ vztahy k jiným objektům – výrobce vína, produkce vinařství — Podtřídy „dědí“ sloty od nadřazené třídy, např. všechny sloty třídy VÍNA budou mít též podtřídy BÍLÁ VÍNA, ČERVENÁ VÍNA a jejich podtřídy. — Lze přidat specifický slot podtřídě, např. třída ČERVENÁ VÍNA - slot třísloviny, dědí všechny její podtřídy Seznam slotů podtřídy ČERVENÁ VÍNA Definování faset slotů — Sloty mají různé fasety (property constraints) popisující typy hodnot, množství hodnot (kardinalita – kolik hodnot současně může instance nabývat) a jiné rysy hodnot, které může slot nabývat, např. ¡ hodnoty slotu plnost – plná, střední, lehká typ hodnoty – symbol kardinalita - single (konkrétní víno může mít jednu hodnotu) Definování faset slotů – obvyklé fasety — kardinalita – kolik hodnot může slot mít – single, multiple, minimum a maximum např. ¡ víno má jeden charakter cukernatosti (buď hodnota stolní, či jakostní, nebo přívlastkové) - single, ale může být z více typů hroznů (multiple) ¡ vinaři vyrábějí různá vína (multiple) Definování faset slotů – obvyklé fasety — typ hodnoty ¡ string (řetězec znaků) ¡ number ¡ boolean (pravda/nepravda) ¡ enumerated/symbol (seznam všech specifických možných hodnot) – obsah cukru– možné hodnoty – suché, polosuché, sladké ¡ instance – umožňují definovat vztahy mezi instancemi, musí být definovány třídy, ze kterých instance pocházejí, např. třída VINAŘI má slot produkce s hodnotou typu instance pocházejících ze třídy VÍNA Ukázka definice slotu Ukázka definice slotu Definování faset slotů — range of a slot - třídy obsahující prvky, které jsou pro daný slot hodnotou typu instance ¡ třída VINAŘI je rozsahem slotu výrobce — domain of the slot - třídy, se kterou je slot spojen nebo třídy, jejichž vlastnosti jsou popisovány ¡ doménou slotu výrobce je třída VÍNA Tvorba instancí (individuí) — definování instance vyžaduje: ¡ výběr třídy ¡ tvorbu individuální instance ¡ vyplnění hodnot slotů Ukázka definice instance pro třídu Víno Instance nebo třída? — Rozhodnutí se odvíjí od konkrétní aplikace ontologie. — Jednotlivé instance jsou nejspecifičtější pojmy reprezentované ve znalostní bázi. ¡ instance Rulandské šedé či Rulandské šedé výběr z hroznů 2000 košer (Vinařství Chrámce) (kombinace s jídlem ovlivňují vlastnosti jednotlivých ročníků, nejen odrůda) — Jestliže se dají pojmy hierarchizovat třídy — Tvorba hierarchie a definování vlastností pojmů jsou spolu úzce spojené. V praxi se oba kroky střídají – definuje se několik pojmů v hierarchii a následně se popíší vlastnosti těchto pojmů atd. — Výchozí verze ontologie – prochází hodnocením a laděním – prozkoušení v dané aplikaci, užití metod řešení problému, konzultace s experty může nastat revize původní verze Tři klíčové aspekty adekvátnosti ontologického obsahu (Svátek, 2007a, s. 15) — Přesnost: obsah ontologie by měl co nejvěrohodněji odpovídat situacím v reálném světě. — Srozumitelnost: ontologie by měla být co nejlépe srozumitelná lidem, kteří se na jejím vývoji nepodíleli. — Způsobilost k odvozování: nad ontologií by mělo být možné netriviálně strojově odvozovat. Pro to je třeba využít možností formálního aparátu jazyka. Jazyky pro reprezentaci ontologií — ontology languages — formalita ontologie (tj. strojově čitelná) je založena na jazyku pro reprezentaci, který poskytuje potřebné strojově zpracovatelné kódování — současné výzkumné aktivity – standardizace tři kategorie jazyků (Slavic, 2005): — logic based — frame based — web based Jazyky pro reprezentaci ontologií — Jazyky spjaté s oblastí umělé inteligence – příklady (Svátek, 2002) Ontolingua (http://www.ksl.stanford.edu/software/ontolingua/)- základními konstrukty jazyka jsou definice tříd, relací a funkcí, „mezijazyk“ pro rámcové znalostní systémy. (Define-Class Sale-Offer (?X) "A For-Sale situation with a Specified-Potential-Customer" :Iff-Def (And (For-Sale ?X) (Exists (?Le) (Specified-Potential-Customer ?X ?Le)))) Jazyky pro reprezentaci ontologií — Jazyky spjaté s oblastí umělé inteligence – příklady CyCL (http://www.opencyc.org/) sloužící k tvorbě rozsáhlé všeobecné ontologie CyC (http://sw.opencyc.org/) - usiluje o shromáždění všeobecných znalostí („common sense“), které by ve znalostních systémech fungovaly komplementárně ke znalostem expertním a zabraňovaly absurdnímu chování Webové ontologické jazyky (Svátek, 2002) — vznikly za účelem přidání sémantiky k webovým stránkám — vývojově starší jazyky – SHOE, Ontobroker — novější jazyky ¡ RDF Schema ¡ DAML, OIL ¡ sloučením vzniká DAML+OIL (opírá se o deskripční logiku – podřazení tříd je vyhodnocováno na základě jejich popisů – vznik taxonomie dynamicky X apriorní vymezení vztahů ¡ OWL (Web Ontology Language) http://www.w3.org/TR/owl-guide/ – doporučení/standard W3C (spolu s RDF) Vyjádření konkrétní hodnoty pro třídu „červená vína“ pomocí jazyka OWL červená vína červená Tezaurus vers. ontologie — podobnost ¡ terminologické pokrytí určité domény, vymezení vztahů mezi jednotlivými termíny, seskupení termínů do kategorií a podkategorií ¡ obojí se používá pro popis a organizaci informací — rozdílnost ¡ ontologie obsahuje mnohem více vztahů, které jsou formálně definovány a jsou jednoznačné, interpretovatelné strojově i lidmi ¡ tezaurus – vztahy mezi termíny, ontologie – definování pojmů a vztahů mezi nimi, logický a formální popis a Ukázka definice pojmu v ontologii Praktické aplikace (Svátek, 2002, 2007a) Nasazení v praxi zaostává za rozsáhlým aplikačním výzkumem. Formalizované znalosti jsou obtížně převoditelné do jednotné podoby, pro jejíž zpracování lze efektivně vyvinout hromadně šířený softwarový nástroj. — Znalostní management — Elektronické obchodování — Zpracování přirozeného jazyka — Inteligentní integrace informací — Pojmové vyhledávání informací — Sémantické webové portály — Inteligentní výukové systémy Příklady ontologií WordNet – terminologická/lexikální ontologie – původní verze pro angličtinu, vícejazyčné varianty, např. EuroWordNet — informace jsou organizovány do logických množin – synsetů – seznam synonymních slov nebo slovních spojení — definována řada vztahů (synonymie, antonymie, hyperonomie, hyponymie, meronymie), definice či příklady použití, termíny však nejsou dále (formálně) definovány výsledek pro vyhledávání „wine“ The noun wine has 2 senses (first 2 from tagged texts) 1. (9) wine, vino -- (fermented juice (of grapes especially)) 2. (2) wine, wine-colored -- (a red as dark as red wine) The verb wine has 2 senses (no senses from tagged texts) 1. wine -- (drink wine) 2. wine -- (treat to wine; "Our relatives in Italy wined and dined us for a week") — Příklady základních a oborových/doménových ontologií viz Svátek, 2007a — Projekty s českou účastí - Research in Applied Ontology, Semantic Web and Information Extraction in the Czech Republic http://keg.vse.cz/ontoweb-cz/ Povinná literatura — Arano, S. 2005. Thesauruses and ontologies [online]. Hipertext.net. 2005, č. 3, [cit. 2009-02-20]. Dostupné z WWW: http://www.hipertext.net/english/pag1009.htm ISSN 1695-5498 — Noy, N. F., McGuinness, D. L. 2009. Ontology Development 101 : A Guide to Creating Your First Ontology [online]. [cit. 2009-03-27]. Dostupné z WWW: http://www.ksl.stanford.edu/people/dlm/papers/ontology101/ontology101-noy-mcguinness.html — Svátek, V., Vacura, M. 2007a. Ontologické inženýrství [online]. In DATAKON 2007, Brno, 20.-23. 10. 2007, 32 s. [cit. 2009-02-20]. Dostupné z WWW: http://nb.vse.cz/~svatek/dkon07final.pdf — Denny, M. 2004. Ontology Tools Survey, Revisited [online]. July 14, 2004 [cit. 2009-03-27]. Dostupné z WWW: http://www.xml.com/pub/a/2004/07/14/onto.html — Denny, M. 2002. Ontology Building : A Survey of Editing Tools [online]. November 06, 2002 [cit. 2009-03-27]. Dostupné z WWW: http://www.xml.com/pub/a/2002/11/06/ontologies.html — Gilchrist, A. 2003. Thesauri, taxonomies and ontologies an etymological note. Journal of Documentation, 2003 , roč. 59, č. 1, s. 7-18. — Gruber, T.R. 1993. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition, 1993, č. 5, s. 199. — Chowdhury, G. G. ; Chowdhury, S. 2007. Organizing information : from the shelf to the Web. London : Facet, 2007. Kap. 10 Ontology, s. 171-185. ISBN 978-1-85604-578-0 dostupné v ÚK – registrační pult — Kayed, A. aj. 2008. Building Ontological Relationships : A New Approach. Journal of the American Society for Information Science and Technology, 2008, roč. 59, č. 11, s. 1801–1809. — Slavic, A. 2005. Knowledge Organization Systems, Network Standards and Semantic Web. IN Informacijske znanosti u procesu promjena. Zagreb: Zavod za informacijske studije, 2005. s. 5-22. Dostupné též z WWW: http://dlist.sir.arizona.edu/1326/02/semweb_kos_EN_2.pdf — Svátek, V. 2007b. Research in Applied Ontology, Semantic Web and Information Extraction in the Czech Republic [online]. Last update Jun 20, 2007 [cit. 2009-03-27]. Dostupné z WWW: http://keg.vse.cz/ontoweb-cz/ — Svátek, V. 2002. Ontologie a WWW [online]. In DATAKON 2002, Brno, 19.-22. 10. 2002, 35 s. Dostupné z WWW: http://nb.vse.cz/~svatek/onto-www.pdf — Yi, M. 2008. Information Organization and Retrieval Using a Topic Maps-Based Ontology : Results of a Task-Based Evaluation. Journal of the American Society for Information Science and Technology, 2008, roč. 59, č. 12, s. 1801–1809.