1
Doporučení pro práci
s bibliometrickými indikátory a
jejich interpretaci
Toto doporučení je vydáváno pro pracovníky MU, kteří pracují s bibliometrickými indikátory
(například impakt faktor, h-index, apod.). Zejména v situacích, kdy může bibliometrie ovlivnit
hodnocení jednotlivce (příp. skupiny) je zapotřebí znát omezení bibliometrie a metodické základy
využití bibliometrických indikátorů. Doporučení obsahuje obecné zásady práce s bibliometrickými
indikátory a způsob nakládání s nimi. Všechna doporučení vycházejí z mezinárodně obecně
uznávaného metodologického konceptu a z dobré praxe expertů na scientometrii.1
Bibliometrie je založena na datech z bibliografických databází. Nejvýznamnějšími producenty dat
napříč obory jsou v současnosti společnosti:
1. Thomson Reuters (platforma Web of Science, WoS) a
2. Elsevier (platforma SCOPUS).
Masarykova univerzita pro snadnou tvorbu bibliometrických indikátorů z dat Web of Science a pro
analýzy publikační činnosti využívá nástroj InCites společnosti Thomson Reuters. V současné době lze
využít dvě verze (generace) systému – InCites 12
(přístup je omezen na úzkou skupinu uživatelů) a
InCites 23
. Zdrojem pro analýzy v InCites je specializovaný dataset publikací a autorů Masarykovy
univerzity, který je připravený Odborem výzkumu RMU na základě publikací vložených v IS MU, resp.
dataset podle adresy ve WoS.
InCites umožňuje širokou škálu různých analýz na úrovni MU, pracovišť i jednotlivců. InCites
umožňuje také základní benchmarking v porovnání se světovou produkcí. Analýzu s využitím
nástroje InCites zpracuje dle konkrétních požadavků Odbor výzkumu RMU.
Kromě multioborových databází existuje řada oborově zaměřených databází, které lze ve vhodné
situaci rovněž využít. Jsou to například MathSciNet (matematika), SciFinder – CAS (chemie, biochemie
1
HICKS, D, et al. Bibliometrics: The Leiden Manifesto for research metrics. Nature. 2015, vol. 520, 7548, 429–
431. doi: http://dx.doi.org/10.1038/520429a. Dostupné z: http://www.nature.com/news/bibliometrics-theleiden-manifesto-for-research-metrics-1.17351;
San Francisco Declaration on Research Assessment (DORA),
Dostupné z: http://www.ascb.org/dora/.
2
Dostupné z http://incites.isiknowledge.com.
3
Dostupné z https://incites.thomsonreuters.com/#/analytics.
2
a příbuzné obory), PubMed (medicínské obory), ADS – Astrophysics Data System (astrofyzika). Tyto
databáze mají obvykle pro tvorbu bibliometrických indikátorů větší omezení, než tradiční producenti.
Pro patenty existují databáze Derwent (součást Web of Science), EPO- PATSTAT, USPTO, DEPATISnet,
WIPO.
V současné době se diskutuje o využití Google Scholar pro účely bibliometrie. Jedná se o
bibliograficky specializovanou vyhledávací službu, která na základě vlastního algoritmu umožňuje
zobrazovat reference k vybraným dokumentům. Pro bibliometrické analýzy je možné využít Google
Scholar jen se značnými komplikacemi (viz oddíl „Práce s databázemi“), ale jeho výhodou je, že
umožňuje sledovat ohlas produkce oborů, které mají v tradičních databázích slabé nebo žádné
zastoupení (např. některé společenské a humanitní vědy).
Bibliometrických výstupů využívají s různou vahou také žebříčky vysokých škol (Leiden Ranking, THE
World University Rankings, Shanghai Ranking, a jiné). V tomto kontextu se ale můžeme setkat s větší
mírou mylné interpretace bibliometrických ukazatelů.
V dalším textu rámcově představíme jednotlivé databáze a způsob využití určitých konkrétních
indikátorů.
Obecné zásady a doporučení
1. Bibliometrie je nejspolehlivější pro účely porovnávání a analyzování dat na makro úrovních
(země, případně instituce). Směrem k nižším jednotkám hodnocení (pracoviště, jednotlivci)
se její vhodnost pro porovnávání a analyzování výzkumné výkonnosti snižuje a je vždy nutné
je doplnit kvalitativním hodnocením4
(např. problém tzv. „false positive“ – pokud se
bibliometrickou metodou najdou rozdíly mezi dvěma pracovníky na pracovišti, nemusí to
nutně znamenat, že je mezi nimi skutečný kvalitativní rozdíl). V případě analýz na individuální
úrovni lze autorizací samotným výzkumníkem, či využitím pravidelně aktualizovaného profilu
ResearcherID dosáhnout přesnějších vstupních dat.
2. Bibliometrie má sloužit jako jeden z podkladů pro následné kvalitativní hodnocení.
Bibliometrii není vhodné přímo využívat jako jediný podklad pro hodnocení jednotlivců, či
skupin, zejména v případech, kdy toto hodnocení může ovlivnit kariéry a personální otázky.
3. Analýza by měla vždy využívat několik zdrojů současně (zpravidla 3 zdroje). Kromě
multioborových databází je doporučeno využít oborově zaměřenou databázi, pokud je to
možné.
4. Výsledky bibliometrických analýz by měly být transparentní a všem srozumitelné. Hodnocená
jednotka by měla mít vždy možnost data verifikovat. Pokud jsou bibliometrické analýzy
jedním z podkladů pro hodnocení, měla by být kritéria transparentní a předem známá.
5. Pro získání věrohodné informace o sledované jednotce je zapotřebí využívat škálu
relevantních indikátorů, nikoli pouze jeden indikátor. Pro zodpovědnou interpretaci údajů je
třeba sledovat indikátory ve vzájemné souvislosti.
4
Například v případě porovnání H-indexu je třeba zohlednit obor, věk, délku publikační aktivity, typy výstupů či
vývoj publikační aktivity v čase.
3
6. V bibliometrii je nutné vždy srovnávat podobné s podobným (např. v rámci oboru). Nelze
například porovnávat h-index vědce z oboru historie a z oboru biologie – obory mají
diametrálně odlišné citační zvyklosti a strukturu obvyklých výstupů.
7. Excelenci je nutné hledat v relevantním prostorovém kontextu.
8. Metriky vztahující se k časopisům (např. impakt faktor) a metriky z něj odvozené je potřeba
vyřadit z úvah o financování a personálních otázkách (zaměstnávání, povýšení) a k hodnocení
jednotlivců.
9. Výkon je potřeba měřit a interpretovat v kontextu výzkumné strategie hodnocené jednotky.
10. Za účelem hodnocení výzkumu je nutné zvažovat kvalitu a dopad všech výstupů výzkumu,
nejen publikací, přičemž je třeba brát v úvahu širokou škálu měřítek dopadu včetně
kvalitativních indikátorů (např. vliv na používané metody a praxi).
11. Výzkum je potřeba hodnotit také na základě jeho přínosu, či dopadu, a nikoli pouze na
základě časopisu, v němž je zveřejněn, nebo pouze na základě publikačních měřítek.
12. Nelze připustit, aby nevhodně zvolené indikátory přímo ovlivňovaly chování, či kariéry vědců.
Informované kvalitativní hodnocení (např. panel/peer review) není ideální, ale stále nejlepší
možný nástroj hodnocení a řízení vědy.
13. Data je potřeba vždy čistit a verifikovat. Čištění dat obvykle podléhají shody jmen, různé
varianty adres a názvů institucí, obory, typy výsledků. Pokud nejsou data čistá, nejsou
spolehlivým zdrojem pro analýzu.
Zdroje dat: Web of Science, SCOPUS, Google Scholar
Politika producenta dat obvykle determinuje obecně přejímaná kritéria kvality a excelence. Při práci
s databázemi je proto potřeba počítat s těmito vlastnostmi a omezeními:
Web of Science SCOPUS
Přísná kritéria pro indexaci (obsahuje méně
zdrojů). Velmi omezeně jsou indexovány knihy.
Databáze má velké omezení pro použití
v případě určitých humanitních a sociálních věd.
V případě analýzy citovaných zdrojů lze využít
„Cited Reference Search“, který obsahuje také
časopisy a výsledky, jež nejsou indexovány ve
WoS, např. knihy. Je například vhodné využít
Cited Reference Search pro zjištění přesnějšího
h-indexu, zejména pro sociální a humanitní vědy.
Mírněji nastavená kritéria pro indexaci (obsahuje
více zdrojů). Velmi omezeně jsou indexovány
knihy. Databáze má velké omezení pro použití
v případě určitých humanitních a sociálních věd.
Oproti WoS je však zastoupení humanitních a
sociálních věd větší.
Velký podíl časopisů pocházejících z angloamerického
prostředí, obsahuje malý podíl
lokálních zdrojů.
Více „evropsky“ orientovaná databáze s větším
podílem lokálních zdrojů.
WoS není vhodným zdrojem dat pro všechny
obory. Společenské a humanitní obory až na
výjimky nemají dostatečné zastoupení zdrojů a
tím ani potřebné množství zdrojových záznamů.
SCOPUS má obecně širší záběr, je vhodnějším
zdrojem pro společenské a humanitní vědy a pro
konferenční příspěvky.
Data je potřeba vždy čistit a verifikovat. Čištění Data je potřeba vždy čistit a verifikovat. Čištění
4
dat obvykle podléhají shody jmen, různé varianty
adres a názvů institucí, obory.
dat obvykle podléhají shody jmen, různé varianty
adres a názvů institucí, obory.
Využívá impakt faktor pro měření popularity
zdrojů.
Využívá SJR faktor (SCImago Journal Rank) pro
měření popularity zdrojů.
Využití Google Scholar pro účely bibliometrie je stále velmi problematické, je zapotřebí data podrobit
masivní kritice a čištění. Pro obory nepokryté tradičními databázemi (viz výše) je však Google Scholar
vhodné vzít v úvahu.
Při práci s Google Scholar je potřeba počítat s těmito vlastnostmi a omezeními:
Google Scholar omezení Google Scholar výhody
Netransparentnost – využívá algoritmus, který
vyhodnocuje, co je vědecký příspěvek. Tento
algoritmus není zveřejněn, je tedy nutné
manuálně rozhodnout, které výsledky
vyhledávání jsou relevantní (vědecké x
populární).
Široká nabídka typů dokumentů – kromě
tradičních „articles“, „books“, také reporty,
prezentace, závěrečné práce, učební materiál.
Široké geografické a oborové pokrytí. Pro
sociální a humanitní vědy perspektivní zdroj.
Google Scholar ve výsledcích vyhledávání může
poskytovat různé verze téhož výstupu, podle
toho, kde všude je výstup zveřejněn.
Poskytuje doplňkové služby (profil uživatele,
základní metriky citovanosti).
Není specifikováno, která místa jsou zahrnuta do
vyhledávání. Není také možná kontrola nad
změnami webového obsahu, tzn. stejné
vyhledávání může vrátit různé výsledky
v závislosti na čase.
Prohledává i repozitáře.
Nabízí fulltext přístup (pokud je dostupný).
Manipulovatelnost dat (možnost přihlášení se
k cizímu výsledku, fake articles).
Google Scholar je moderní výzva – velké pole pro
vylepšování.
Není kontrola čistoty dat – nutnost extrémní
opatrnosti při práci s daty zejména na úrovni
jednotlivce. Data je potřeba vždy čistit a
verifikovat.
Pro analýzy výsledku vyhledávání Google Scholar
slouží software Harzing's Publish or Perish, dále
různé aplikace pro Android a iOS a přidružené
funkcionality (např. UGRinvestiga); doplňky pro
prohlížeče.
Propojení vyhledávání akademických výstupů se
sociální sítí (pokud mají spoluautoři profil na
Google Scholar) a dalšími funkcionalitami. Mají-li
autoři profil na Google Scholar, je její použití
výrazně spolehlivější, protože to znamená, že
sami autoři verifikovali svoje publikace.
Významný nástroj pro zvýšení viditelnosti zvláště
pro mladé výzkumníky.
5
Zásady práce s vybranými bibliometrickými indikátory
1. Impakt faktor
Impakt faktor (Thomson Reuters) byl původně vytvořen jako nástroj, který měl pomáhat
knihovníkům vyhledávat vlivné časopisy vhodné k nákupu. Měří vlivnost (popularitu) časopisu, nikoli
dopad vědy článku nebo jednotlivce. To vyplývá z metody výpočtu:
všechny citace všech článků v daném časopise získané v letech X-1 a X-2
Impakt faktor v roce X =
počet „citovatelných“ výstupů (obvykle article, note a review), které byly
v daném časopise publikovány v letech X-1 a X-2.
V současnosti je impakt faktor (IF) velmi vlivným údajem, neboť je pro svou jednoduchost a
srozumitelnost plošně využíván, někdy ovšem v nesprávných souvislostech.
Ve prospěch IF platí, že (ve většině oborů) existuje korelace mezi kvalitou a IF. Časopisy s vysokým IF
mají nejnáročnější peer review, které stále zdokonalují. Při hodnocení jednotlivce se samozřejmě
posuzuje v jakých časopisech (s jakým IF) daný pracovník publikuje. Nicméně nelze to použít jako
hlavní indikátor kvality, vždy je třeba vzít úvahu další bibliometrické údaje a kvalitativní posouzení (viz
dále).
V neprospěch IF platí, že výše IF není pro autory jedinou motivací. Někteří autoři cíleně publikují
v časopisech v nižším IF, pokud se například jedná o oborově specifické časopisy s cílem zasáhnout
svoje publikum. V mnoha oborech se však výše IF nesleduje vůbec a i pro špičkové vědce není výše
impakt faktoru relevantní.
V případě výzkumu s rychle stárnoucími daty může být také motivací cílit na méně prestižní časopis
s kratším a jednodušším procesem publikování. Některé obory (např. informatika) také publikují své
výsledky primárně prostřednictvím konferencí a sborníků z konferencí, protože zde je nejrychlejší
proces publikování. Proto by měl být IF používán pouze k účelům, ke kterým je vhodný, tj. k
evaluaci časopisů. Využití impakt faktoru jako jediného indikátoru pro hodnocení článků, institucí,
či osob je odmítáno odbornou scientometrickou komunitou, ale i samotným producentem dat.5
Impakt faktor má řadu omezení:
a) IF poutá pozornost k časopisu, ale neznamená, že bude článek v tomto časopise více citován.
b) Počet citovatelných článků (jmenovatel) může být ovlivněn velikostí časopisu.
c) Výhodu mají starší časopisy oproti novým a časopisy s vyšší periodicitou oproti časopisům,
které vycházejí méně často.
d) IF lze manipulovat pomocí redakční politiky.6
Výhodu mají review časopisy (články typu
review jsou obvykle více citovány).
5
Například The State of Journal Evaluation. Dostupné z: http://stateofinnovation.thomsonreuters.com/how-to-
measure-up-impact-factor-2015.
6
The PLoS Medicine Editors. The impact factor game. PLoS Medicine. 2006, 3, 6, e291, doi:
http://dx.doi.org/10.1371/journal.pmed.0030291.
6
e) Nevyváženost (IF je silně ovlivnitelný menšinou vysoce citovaných článků).7
f) Vlastnosti IF jsou specifické pro různé obory. Nelze mezi sebou porovnávat absolutní hodnoty
impakt faktorů časopisů z různých oborů.
g) Netransparentní proces určování kritérií pro výpočet IF.
IF je kalkulován na 3 desetinná místa, což evokuje dojem přesnosti údaje. Z výše uvedených vlastností
ovšem vyplývá, že výpočet může ovlivňovat řada „měkkých“ faktorů a proto zejména mezi časopisy s
drobným rozdílem v absolutní výši IF nelze pouze na základě výše IF rozhodnout o jejich kvalitě.
Sčítání impakt faktorů časopisů pro účely hodnocení určité jednotky (tzv. kumulativní impakt faktor)
je výraznou ukázkou zneužití impakt faktoru pro nevhodné účely. Tento údaj konstatuje, jaký je
součet impakt faktorů časopisů, ve kterém daný autor publikoval. Nevypovídá ale nic o vědeckých
kvalitách autora ani o dopadu jeho článků. Hodnota tzv. kumulativního IF stoupá s věkem autora.
Tento údaj rovněž nelze k ničemu vztáhnout, porovnávat, a to ani v rámci oboru.
Příklad hodnocení dvou kolegů na základě kvantitativních údajů:
Kolega A Kolega B
- 1 článek z roku 2012 v časopise s IF 12,
multioborový časopis.
- Počet citací: 9.
- Konsorcium 55 autorů.
- 1 článek z roku 2012 v časopise s IF 4,
specializovaný oborový časopis.
- Počet citací: 30.
- Bilaterální spolupráce se zahraniční
univerzitou.
- Článek je v odborné komunitě sdílen
prostřednictvím příspěvků na Twitteru.
H-index 1 H- index 1
Tento jednoduchý vzorový příklad ukazuje, že nelze posuzovat pouze na základě jediné hodnoty.
Pokud vedoucí pracoviště bude posuzovat zaměstnance podle IF časopisu, ve kterém publikuje, bude
se jevit kolega A v žebříčku výše a případné personální důsledky by nepůsobily spravedlivě. Publikace
v časopise s vysokým IF lze sice vnímat jako úspěch, ale je potřeba posoudit okolnosti a dopad článků
samotných, kdo na tom úspěchu má hlavní podíl, tj. zahrnout kvalitativní hodnocení, případně více
indikátorů. Po prozkoumání všech okolností by hodnocení dopadu vědy zřejmě vyznělo lépe pro
kolegu B. Reálné situace jsou obvykle mnohem složitější.
2. h-index
H-index je indikátorem, který měří produktivitu a impakt. Hodnota h udává počet článků, které mají h
a více citací. Ani h-index není metrika vhodná pro všechny účely. Jeho výhodou je, že stírá zkreslení
mimořádně citovaným článkem a články, které ještě nebyly citovány. V případě sledování trendu hindexu
v čase lze rozeznat konsistentně kvalitní výzkum v rámci oboru. Je rovněž užitečný pro
sledování „rising stars“ v jednotlivých oborech. Omezení h-indexu jsou dána jeho silnou závislostí na
oborových specifikách citovanosti.
7
Editorial. Not so deep impact. Nature 2005, 435, 1003–1004. doi: http://dx.doi.org/10.1038/4351003b.
7
Vlastnosti h-indexu:
- Liší se napříč různými databázemi, ale i v rámci jedné databáze (pro jednu osobu lze spočítat
několik h-indexů, dle zvolené databáze a filtru). V rámci WoS lze vyhledat v určitých případech tři
rozdílné h-indexy: 1.) z Web of Science Core Collection, 2.) při volbě All Databases a 3.) ručně z
Cited Reference Search. Pro získávání h-indexu není jednoznačně platná metodika, proto je při
jeho uvádění potřeba vždy uvést zdroj, kde byl h-index získán.
- Také Google Scholar uvádí h-index, jež je typicky vyšší než u WoS, protože Google Scholar
zahrnuje mnohem větší objem zdrojů s různou kvalitou.
- Je oborově závislý, nelze srovnávat jeho hodnoty mezi odlišnými obory.
- Nikdy nemůže klesnout v závislosti na čase.8
3. Ostatní bibliometrické indikátory
Volba sledovaných indikátorů se velmi liší s ohledem na zaměření analyzované jednotky, obor, účel
analýzy a sledované jevy, velikost datové základny a mnoha jiných proměnných. Nelze proto stanovit
set vhodných indikátorů pro určité účely. V následujícím přehledu proto přinášíme pouze příklady
nejčastěji se vyskytujících indikátorů. Indikátory je vždy potřeba interpretovat ve vzájemné
souvislosti.
Pro získání přehledu o aktivitě analyzované jednotky obvykle poslouží jednoduché statistiky počtu
publikací v databázích, struktura typů výsledků a jejich zastoupení v databázích. Pokud sledujeme
publikační výkon, je již potřeba tyto hodnoty vztáhnout například k počtu FTE pracovníků, množství
vynaložených prostředků, apod.
Další skupinou nejčastěji sledovaných informací jsou indikátory spolupráce, tedy například míra
mezinárodní spolupráce, přehled spolupracujících zemí, institucí, případně osob. Z analýzy sítí
spolupráce mohou vyvstat i další informace, jako například nové trendy ve výzkumu.
Metriky dopadu založené na citovanosti publikací je potřeba normalizovat a nahlížet v kontextu
oboru. Vypovídajícími indikátory jsou v tomto případě různé varianty citačního dopadu, např.
normalizovaný citační dopad (poměr získaných citací vůči očekávaným v rámci oboru, časopisu, země,
atd.). Ukazatelem kvalitní produkce v oboru je zařazení článku v prvním 1% a 10% nejcitovanějších
článků v rámci oboru a odvozené hodnoty percentilu, který udává, kolik % článků je více citováno.
Vhodným doplněním je analýza viditelnosti vyjádřená indikátory, vztahujícími se k používaným
zdrojům – např. struktura časopisů, ve kterých jednotka publikuje, popularita těchto časopisů v rámci
oboru, zde lze využít také impakt faktor a indikátory z něj odvozené.
8
Variantou je počítat h-index za zvolené časové období, např. posledních 10 let.
8
Kontakt a nabídka zpracování bibliometrických analýz na vyžádání
Volba sledovaných indikátorů se velmi liší s ohledem na zaměření analyzované jednotky, obor, účel
analýzy a sledované jevy, velikost datové základny a mnoha jiných proměnných. Indikátory sledujeme
z pohledu aktivity, publikačního výkonu, spolupráce a dopadu.
Nelze obvykle stanovit set univerzálně vhodných indikátorů pro všechny účely, Odbor výzkumu RMU
proto nabízí zpracování bibliometrické zprávy s využitím nástroje InCites pro fakulty, pracoviště i
jednotlivce na základě individuálních požadavků. Analýze vždy předchází zjištění specifických potřeb.
Výsledkem analýzy není hodnocení, ale detailní informace, které lze využít pro strategické řízení,
průběžný monitoring, jako podklad pro zdokonalování publikační strategie, apod.
V případě zájmu o konzultaci, nebo bibliometrickou analýzu kontaktujte Odbor výzkumu RMU.
Kontakt:
Mgr. Michal Petr
e-mail: petr@rect.muni.cz
tel: 549 49 5887
http://vyzkum.rect.muni.cz/
Zpracoval Mgr. Michal Petr, dne 3.11.2015
Odbor výzkumu RMU
Rektorát Masarykovy univerzity
Žerotínovo náměstí 9
601 77 Brno