PROCHÁZKA, Martin and Jan BLAŤÁK. Klasifikace XML dokumentů (XML documents classification). In Znalosti 2005, sborník příspěvků. 1st ed. Ostrava: VŠB--Technická univerzita Ostrava, 2005, p. 282-289. ISBN 80-248-0755-6.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Klasifikace XML dokumentů
Name in Czech Klasifikace XML dokumentů
Name (in English) XML documents classification
Authors PROCHÁZKA, Martin (203 Czech Republic, guarantor) and Jan BLAŤÁK (203 Czech Republic).
Edition 1. vyd. Ostrava, Znalosti 2005, sborník příspěvků, p. 282-289, 8 pp. 2005.
Publisher VŠB--Technická univerzita Ostrava
Other information
Original language Czech
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
RIV identification code RIV/00216224:14330/05:00013565
Organization unit Faculty of Informatics
ISBN 80-248-0755-6
Keywords in English XML; XML mining; schemaless XML classification
Tags schemaless XML classification, XML, XML mining
Changed by Changed by: RNDr. Jan Blaťák, Ph.D., učo 2978. Changed: 17/2/2005 19:43.
Abstract
V tomto článku prezentujeme novou metodu pro klasifikaci XML dokumentů, která využívá nejen vlastní data uložená v dokumentu, ale také jeho strukturu. Přitom však nevyžaduje dodatečné informace jako XML schéma nebo DTD. Je navržena nová metoda pro transformaci XML dat do podoby jediné tabulky, kterou lze poté zpracovat stávajícími systémy strojového učení. Uvedeme analýzu výsledků experimentů na dokumentech vytvořených z Internet Movie Database (IMDb).
Abstract (in English)
We present a new method for classifying XML documents that does not require any additional information like a XML scheme or DTD. A new method for transforming XML data into one table is introduced. We present results of experiments with data from Internet Movie Database (IMDb). We show that our method overcomes the previous work in terms of accuracy and F1 measure.
Links
MSM 143300003, plan (intention)Name: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministry of Education, Youth and Sports of the CR, Human-computer interaction, dialog systems and assistive technologies
PrintDisplayed: 27/7/2024 18:44