D 2005

Klasifikace XML dokumentů

PROCHÁZKA, Martin a Jan BLAŤÁK

Základní údaje

Originální název

Klasifikace XML dokumentů

Název česky

Klasifikace XML dokumentů

Název anglicky

XML documents classification

Autoři

PROCHÁZKA, Martin (203 Česká republika, garant) a Jan BLAŤÁK (203 Česká republika)

Vydání

1. vyd. Ostrava, Znalosti 2005, sborník příspěvků, od s. 282-289, 8 s. 2005

Nakladatel

VŠB--Technická univerzita Ostrava

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/05:00013565

Organizační jednotka

Fakulta informatiky

ISBN

80-248-0755-6

Klíčová slova anglicky

XML; XML mining; schemaless XML classification
Změněno: 17. 2. 2005 19:43, RNDr. Jan Blaťák, Ph.D.

Anotace

V originále

V tomto článku prezentujeme novou metodu pro klasifikaci XML dokumentů, která využívá nejen vlastní data uložená v dokumentu, ale také jeho strukturu. Přitom však nevyžaduje dodatečné informace jako XML schéma nebo DTD. Je navržena nová metoda pro transformaci XML dat do podoby jediné tabulky, kterou lze poté zpracovat stávajícími systémy strojového učení. Uvedeme analýzu výsledků experimentů na dokumentech vytvořených z Internet Movie Database (IMDb).

Anglicky

We present a new method for classifying XML documents that does not require any additional information like a XML scheme or DTD. A new method for transforming XML data into one table is introduced. We present results of experiments with data from Internet Movie Database (IMDb). We show that our method overcomes the previous work in terms of accuracy and F1 measure.

Návaznosti

MSM 143300003, záměr
Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie