Detailed Information on Publication Record
2005
Klasifikace XML dokumentů
PROCHÁZKA, Martin and Jan BLAŤÁKBasic information
Original name
Klasifikace XML dokumentů
Name in Czech
Klasifikace XML dokumentů
Name (in English)
XML documents classification
Authors
PROCHÁZKA, Martin (203 Czech Republic, guarantor) and Jan BLAŤÁK (203 Czech Republic)
Edition
1. vyd. Ostrava, Znalosti 2005, sborník příspěvků, p. 282-289, 8 pp. 2005
Publisher
VŠB--Technická univerzita Ostrava
Other information
Language
Czech
Type of outcome
Stať ve sborníku
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
RIV identification code
RIV/00216224:14330/05:00013565
Organization unit
Faculty of Informatics
ISBN
80-248-0755-6
Keywords in English
XML; XML mining; schemaless XML classification
Změněno: 17/2/2005 19:43, RNDr. Jan Blaťák, Ph.D.
V originále
V tomto článku prezentujeme novou metodu pro klasifikaci XML dokumentů, která využívá nejen vlastní data uložená v dokumentu, ale také jeho strukturu. Přitom však nevyžaduje dodatečné informace jako XML schéma nebo DTD. Je navržena nová metoda pro transformaci XML dat do podoby jediné tabulky, kterou lze poté zpracovat stávajícími systémy strojového učení. Uvedeme analýzu výsledků experimentů na dokumentech vytvořených z Internet Movie Database (IMDb).
In English
We present a new method for classifying XML documents that does not require any additional information like a XML scheme or DTD. A new method for transforming XML data into one table is introduced. We present results of experiments with data from Internet Movie Database (IMDb). We show that our method overcomes the previous work in terms of accuracy and F1 measure.
Links
MSM 143300003, plan (intention) |
|