Semantic web
Ron Šmeral
Úvod
- Internet - univerzálne médium pre dáta, informácie a výmenu znalostí
- dáta a znalosti vo forme značkoveného štrukturovaného textu
- Problém: takáto forma je čitateľná človekom, ale nie strojom
- Dnes: vyhľadávanie (prevažne) na základe kľúčových slov
- Cieľ/Ideál: efektívne vyhľadávanie na základe sémantiky textu (využitím znalosti vlastností vecí a vzťahov medzi nimi) s relevantnými výsledkami
- Riešenie? Semantizácia
Pojmy: Metadáta
- dáta o dátach
- dávajú dátam význam/zmysel (=sémantiku)
- neexistuje jednoznačná hranica medzi dátami a metadátami
- 602 00 (PSČ) (Poštové smerovacie číslo) (...)
- Špecifikácie: MP3 – ID3/APEv2; JPEG – EXIF/IPTC; XMP
- WEB - ?
Pojmy: Metadáta - na webe
<META>
tag
- mikroformáty, RDFa/eRDF
- RDF, OWL, GRDDL, SPARQL,...
- Dublin Core, FOAF, DOAP, SIOC, a iné ontológie...
Pojmy: Ontológia
- explicitný popis problematiky
- formálna a deklaratívna reprezentácia znalostí
- obsahuje glosár (def. pojmov) a tezaurus (súbor vzťahov)
- dátový model: inštancie, triedy, atribúty a vzťahy
Štruktúra Semantic webu
Kroky k semantizácii webu
- 0. krok: POSH
- 1. krok: mikroformáty a RDFa/eRDF
- medzikrok: GRDDL
- 2. krok: RDF + ontológie + SPARQL
- 3. krok: ?
POSH
- Plain Old Semantic HTML
- validné (X)HTML
- CSS - prezentácia, HTML - obsah (tj. tabuľky sú výhradne na tabuľkové dáta, nie pre layout stránky!)
- zbaviť sa
<B>
ed and <BR>
eakfast a anorexic anchors (<a name="000501"></a>
)
- popisné hodnoty pre
class
atribút (popisujú význam dát, nie vzhľad)
warning
, important
, heading
= dobré názvy
fatborder
, bigRedBold
, prettybackground
= nevhodné názvy
Mikroformáty a RDFa/eRDF
- Mikroformáty
- sémantické značkovanie využitím štandardných prvkov (X)HTML
- hAtom, hCalendar, hCard, hReview, hResume, XFN, XOXO,...
- RDFa/eRDF
- rozsiahlejšie možnosti zahrnutia metadát do HTML
- možnosť priamo extrahovať RDF dáta (pomocou RDF parsera alebo XSLT)
- RDFa je W3C štandard
- RDFa atribúty:
about, rel, rev, href, src, resource, property, content, datatype, typeof
RDF(S)
- Resource Description Framework (W3C)
- formát na popis abstraktného modelu metadát
- základom je triplet: subjekt-predikát-objekt
- postavený na formáte XML
- existujú aj iné serializačné formáty: Notation 3 > Turtle > N-Triples
- RDF Schema
- rozšíriteľný jazyk na reprezentáciu znalostí
- poskytuje základné elementy na popis ontológií:
Class, subClassOf; domain, range
OWL, SPARQL
- Web Ontology Language (W3C)
- jazyk pre reprezentáciu znalostí; určený na tvorbu ontológií
- založený na deskriptívnej logike
- SPARQL Protocol and RDF Query Language (W3C)
- dotazovací jazyk pre RDF
Dublin Core (ISO)
- štandard pre metadátový popis digitálnych dát
- Dublin Core Metadata Element Set
- Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights
Nástroje:
- RDFizers (SIMILE)
- JPG, Java(doc), E-mail, BibTEX, Subversion,...
- ConverterToRdf
- iCal, Flickr, Excel, GPS,...
- Tripplr
- Stuff in, triples out
- RDF/XML, N-triples, TRiG, Turtle, RSS, Atom, GRDDL and microformats for HTML, XHTML and XML and RDFa
using Raptor (GRDDL) to HTML, JSON, RSS 1.0, N-triples, RDF/XML, Turtle
Aplikácie
- vyhľadávanie
- Swoogle
- DBpedia
- 213,000 persons, 328,000 places, 57,000 music albums, 36,000 films, 20,000 companies
- 274 million RDF triples