2005
Klasifikace XML dokumentů
PROCHÁZKA, Martin a Jan BLAŤÁKZákladní údaje
Originální název
Klasifikace XML dokumentů
Název česky
Klasifikace XML dokumentů
Název anglicky
XML documents classification
Autoři
PROCHÁZKA, Martin (203 Česká republika, garant) a Jan BLAŤÁK (203 Česká republika)
Vydání
1. vyd. Ostrava, Znalosti 2005, sborník příspěvků, od s. 282-289, 8 s. 2005
Nakladatel
VŠB--Technická univerzita Ostrava
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/05:00013565
Organizační jednotka
Fakulta informatiky
ISBN
80-248-0755-6
Klíčová slova anglicky
XML; XML mining; schemaless XML classification
Štítky
Změněno: 17. 2. 2005 19:43, RNDr. Jan Blaťák, Ph.D.
V originále
V tomto článku prezentujeme novou metodu pro klasifikaci XML dokumentů, která využívá nejen vlastní data uložená v dokumentu, ale také jeho strukturu. Přitom však nevyžaduje dodatečné informace jako XML schéma nebo DTD. Je navržena nová metoda pro transformaci XML dat do podoby jediné tabulky, kterou lze poté zpracovat stávajícími systémy strojového učení. Uvedeme analýzu výsledků experimentů na dokumentech vytvořených z Internet Movie Database (IMDb).
Anglicky
We present a new method for classifying XML documents that does not require any additional information like a XML scheme or DTD. A new method for transforming XML data into one table is introduced. We present results of experiments with data from Internet Movie Database (IMDb). We show that our method overcomes the previous work in terms of accuracy and F1 measure.
Návaznosti
MSM 143300003, záměr |
|