D 2017

Cost-Sensitive Strategies for Data Imbalance in Bug Severity Classification: Experimental Results

SINGHA ROY, Nivir Kanti a Bruno ROSSI

Základní údaje

Originální název

Cost-Sensitive Strategies for Data Imbalance in Bug Severity Classification: Experimental Results

Autoři

SINGHA ROY, Nivir Kanti (50 Bangladéš) a Bruno ROSSI (380 Itálie, garant, domácí)

Vydání

Not specified, 43rd Euromicro Conference on Software Engineering and Advanced Applications (SEAA) 2017, od s. 426-429, 4 s. 2017

Nakladatel

IEEE

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14330/17:00100027

Organizační jednotka

Fakulta informatiky

ISBN

978-1-5386-2140-0

UT WoS

000426074600063

Klíčová slova anglicky

cost-sensitive strategies; data imbalance; software bug severity classification; software bug triaging process; support vector machine; SVM classifier

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 20. 11. 2019 10:02, Bruno Rossi, PhD

Anotace

V originále

Context: Software Bug Severity Classification can help to improve the software bug triaging process. However, severity levels present a high-level of data imbalance that needs to be taken into account. Aim: We investigate cost-sensitive strategies in multi-class bug severity classification to counteract data imbalance. Method: We transform datasets from three severity classification papers to a common format, totaling 17 projects. We test different cost sensitive strategies to penalize majority classes. We adopt a Support Vector Machine (SVM) classifier that we also compare to a baseline "majority class" classifier. Results: A model weighting classes based on the inverse of instance frequencies yields a statistically significant improvement (low effect size) over the standard unweighted SVM model in the assembled dataset. Conclusions: Data imbalance should be taken more into consideration in future severity classification research papers.