Detailed Information on Publication Record
2011
Folksonomy - Supplementing RICHE Expert Based Taxonomy by Terms from Online Documents (Pilot Study)
BOUREK, Aleš, Mikhail ALEXANDROV and Roque LOPEZBasic information
Original name
Folksonomy - Supplementing RICHE Expert Based Taxonomy by Terms from Online Documents (Pilot Study)
Name in Czech
Folksonomie - Doplnění expertní taxonomie RICHE pojmy z online dostupných dokumentů (pilotní studie)
Authors
BOUREK, Aleš (203 Czech Republic, guarantor, belonging to the institution), Mikhail ALEXANDROV (643 Russian Federation) and Roque LOPEZ (604 Peru)
Edition
1st edition. Rzeszow, Poland; Sofia, Bulgaria, Business and Engineering Applications of Intelligent and Information Systems, p. 115-123, 9 pp. ITHEA IBS ISC No. 23, 2011
Publisher
ITHEA
Other information
Language
English
Type of outcome
Kapitola resp. kapitoly v odborné knize
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
RIV identification code
RIV/00216224:14110/11:00055559
Organization unit
Faculty of Medicine
ISBN
978-954-16-0054-2
Keywords (in Czech)
dětské zdraví; zpracování přirozeného jazyka; taxonomie; selekce pojmů;
Keywords in English
child health; natural language processing; taxonomy; term selection;
Tags
International impact, Reviewed
Změněno: 14/4/2012 00:09, Mgr. Michal Petr
V originále
RICHE (Research Inventory of Child Health in Europe) is a platform developed and funded under the Health domain of 7th European Framework Program. The platform search engine is expected to use the multilingual taxonomy of terms for processing and classifying large volumes of documents of the RICHE repository. So far the experts participating in this project have produced the initial version of expert based taxonomy of terms relating to child health (based on existing taxonomies). In the paper we propose a simple man-machine technique for continuous support and development of the existing term list, which consists of three steps: 1) construction of various keyword lists extracted from a topic oriented document set using various levels of word specificity 2) selection of the most useful keyword lists using subjective criteria as a precision of selection and a number of new words 3) manual selection of new terms. Experimental material was represented by documents uploaded from three organizations active in child health improvement policies: World Bank, World Health Organization (WHO), and DG SANCO of European Commission (EC). The selection was performed in order to assess terms used in these documents that may be absent in the RICHE taxonomy. Presented work should be considered as a pilot (feasibility) study. The objective of the RICHE platform is to identify gaps in European child health research, so extensive mapping exercise has been started. Classification of identified studies is essential and cannot be based only on traditional terms of existing taxonomies. Emergent terms (such as for example “cyberbullying”) need to be identified and included into existing taxonomies. In our future work we focus on developing techniques related to multilevel and multiword term selection
In Czech
RICHE (Evropský repozitář výzkumů v oblasti dětského zdraví) je platforma vyvíjená a financovaná v rámci oblasti zdravotnictví 7. evropského rámcového programu. Očekává se, že vyhledávač platformy využije vícejazyčnou taxonomii pojmů za účelem zpracování a třídění velkých objemů dokumentů úložiště RICHE. Odborníci z oblasti dětského zdraví účastnící se tohoto projektu vytvořili první verzi odborné taxonomie pojmů týkajících se zdraví dětí, která vychází ze stávajících taxonomií. V příspěvku navrhujeme jednoduchý postup založený na strojovém učení určený pro kontinuální podporu a rozvoj stávajícího přehledu klíčových slov, který se skládá ze tří kroků: 1) konstrukce různých seznamů klíčových slov extrahovaných z tématicky orientovaného dokumentu podle různých stupňů specifičnosti slov 2) výběr z nejužitečnějších identifikovaných seznamů klíčových slov pomocí subjektivního kritéria jako míry přesnosti výběru z množství nových slov 3) ruční výběr nových pojmů zvoleného seznamu. Experimentální materiál byl zastoupen dokumenty získanými od tří organizací působících v oblasti dětských politik zlepšení zdraví: Světové banky, Světové zdravotnické organizace (WHO) a DG SANCO Evropské komise (EK). Výběr byl proveden s cílem posoudit pojmy, které byly užity v těchto dokumentech a které mohou případně chybět v expertní taxonomii RICHE. Předloženou práci je třeba považovat za pilotní studii proveditelnosti. Cílem platformy RICHE je identifikace mezer v evropském výzkumu zdraví dětí a z tohoto důvodu bylo zahájeno rozsáhlé mapování této oblasti. Klasifikace identifikovaných výzkumných studií má pro projekt zásadní význam a nemůže být založena pouze na tradičních stávajících taxonomiích. Emergentní pojmy (jako např. "kyberšikana") je třeba podchytit a začlenit do stávajících taxonomií. V naší budoucí práci jsme zaměřeni na vývoj technik spojených s víceúrovňovými a víceslovnými termíny výběru.