C 2011

Folksonomy - Supplementing RICHE Expert Based Taxonomy by Terms from Online Documents (Pilot Study)

BOUREK, Aleš, Mikhail ALEXANDROV and Roque LOPEZ

Basic information

Original name

Folksonomy - Supplementing RICHE Expert Based Taxonomy by Terms from Online Documents (Pilot Study)

Name in Czech

Folksonomie - Doplnění expertní taxonomie RICHE pojmy z online dostupných dokumentů (pilotní studie)

Authors

BOUREK, Aleš (203 Czech Republic, guarantor, belonging to the institution), Mikhail ALEXANDROV (643 Russian Federation) and Roque LOPEZ (604 Peru)

Edition

1st edition. Rzeszow, Poland; Sofia, Bulgaria, Business and Engineering Applications of Intelligent and Information Systems, p. 115-123, 9 pp. ITHEA IBS ISC No. 23, 2011

Publisher

ITHEA

Other information

Language

English

Type of outcome

Kapitola resp. kapitoly v odborné knize

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14110/11:00055559

Organization unit

Faculty of Medicine

ISBN

978-954-16-0054-2

Keywords (in Czech)

dětské zdraví; zpracování přirozeného jazyka; taxonomie; selekce pojmů;

Keywords in English

child health; natural language processing; taxonomy; term selection;

Tags

International impact, Reviewed
Změněno: 14/4/2012 00:09, Mgr. Michal Petr

Abstract

V originále

RICHE (Research Inventory of Child Health in Europe) is a platform developed and funded under the Health domain of 7th European Framework Program. The platform search engine is expected to use the multilingual taxonomy of terms for processing and classifying large volumes of documents of the RICHE repository. So far the experts participating in this project have produced the initial version of expert based taxonomy of terms relating to child health (based on existing taxonomies). In the paper we propose a simple man-machine technique for continuous support and development of the existing term list, which consists of three steps: 1) construction of various keyword lists extracted from a topic oriented document set using various levels of word specificity 2) selection of the most useful keyword lists using subjective criteria as a precision of selection and a number of new words 3) manual selection of new terms. Experimental material was represented by documents uploaded from three organizations active in child health improvement policies: World Bank, World Health Organization (WHO), and DG SANCO of European Commission (EC). The selection was performed in order to assess terms used in these documents that may be absent in the RICHE taxonomy. Presented work should be considered as a pilot (feasibility) study. The objective of the RICHE platform is to identify gaps in European child health research, so extensive mapping exercise has been started. Classification of identified studies is essential and cannot be based only on traditional terms of existing taxonomies. Emergent terms (such as for example “cyberbullying”) need to be identified and included into existing taxonomies. In our future work we focus on developing techniques related to multilevel and multiword term selection

In Czech

RICHE (Evropský repozitář výzkumů v oblasti dětského zdraví) je platforma vyvíjená a financovaná v rámci oblasti zdravotnictví 7. evropského rámcového programu. Očekává se, že vyhledávač platformy využije vícejazyčnou taxonomii pojmů za účelem zpracování a třídění velkých objemů dokumentů úložiště RICHE. Odborníci z oblasti dětského zdraví účastnící se tohoto projektu vytvořili první verzi odborné taxonomie pojmů týkajících se zdraví dětí, která vychází ze stávajících taxonomií. V příspěvku navrhujeme jednoduchý postup založený na strojovém učení určený pro kontinuální podporu a rozvoj stávajícího přehledu klíčových slov, který se skládá ze tří kroků: 1) konstrukce různých seznamů klíčových slov extrahovaných z tématicky orientovaného dokumentu podle různých stupňů specifičnosti slov 2) výběr z nejužitečnějších identifikovaných seznamů klíčových slov pomocí subjektivního kritéria jako míry přesnosti výběru z množství nových slov 3) ruční výběr nových pojmů zvoleného seznamu. Experimentální materiál byl zastoupen dokumenty získanými od tří organizací působících v oblasti dětských politik zlepšení zdraví: Světové banky, Světové zdravotnické organizace (WHO) a DG SANCO Evropské komise (EK). Výběr byl proveden s cílem posoudit pojmy, které byly užity v těchto dokumentech a které mohou případně chybět v expertní taxonomii RICHE. Předloženou práci je třeba považovat za pilotní studii proveditelnosti. Cílem platformy RICHE je identifikace mezer v evropském výzkumu zdraví dětí a z tohoto důvodu bylo zahájeno rozsáhlé mapování této oblasti. Klasifikace identifikovaných výzkumných studií má pro projekt zásadní význam a nemůže být založena pouze na tradičních stávajících taxonomiích. Emergentní pojmy (jako např. "kyberšikana") je třeba podchytit a začlenit do stávajících taxonomií. V naší budoucí práci jsme zaměřeni na vývoj technik spojených s víceúrovňovými a víceslovnými termíny výběru.