Optimizing CUDA code by kernel fusion: application on BLAS

FILIPOVIČ, Jiří, Matúš MADZIN, Jan FOUSEK a Luděk MATYSKA. Optimizing CUDA code by kernel fusion: application on BLAS. The Journal of Supercomputing. Springer US, roč. 71, č. 10, s. 3934-3957. ISSN 0920-8542. doi:10.1007/s11227-015-1483-z. 2015.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Optimizing CUDA code by kernel fusion: application on BLAS
Název česky	Optimalizace CUDA kódu pomocí fúzí kernelů: aplikace na BLAS
Autoři	FILIPOVIČ, Jiří (203 Česká republika, garant, domácí), Matúš MADZIN (703 Slovensko, domácí), Jan FOUSEK (203 Česká republika, domácí) a Luděk MATYSKA (203 Česká republika, domácí).
Vydání	The Journal of Supercomputing, Springer US, 2015, 0920-8542.

Další údaje
Originální jazyk	angličtina
Typ výsledku	Článek v odborném periodiku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Spojené státy
Utajení	není předmětem státního či obchodního tajemství
WWW	URL
Impakt faktor	Impact factor: 1.088
Kód RIV	RIV/00216224:14330/15:00083436
Organizační jednotka	Fakulta informatiky
Doi	http://dx.doi.org/10.1007/s11227-015-1483-z
UT WoS	000361531500013
Klíčová slova česky	GPU; CUDA; BLAS; fúze kernelů; generování kódu
Klíčová slova anglicky	GPU; CUDA; BLAS; Kernel fusion; Code generation
Štítky	J-Q2
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Jiří Filipovič, Ph.D., učo 72898. Změněno: 9. 7. 2019 13:16.

Anotace

Contemporary GPUs have significantly higher arithmetic throughput than a memory throughput. Hence, many GPU kernels are memory bound and cannot exploit arithmetic power of the GPU. Examples of memory-bound kernels are BLAS-1 (vector–vector) and BLAS-2 (matrix–vector) operations. However, when kernels share data, kernel fusion can improve memory locality by placing shared data, originally passed via off-chip global memory, into a faster, but distributed on-chip memory. In this paper, we show how kernels performing map, reduce or their nested combinations can be fused automatically by our source-to-source compiler. To demonstrate the usability of the compiler, we have implemented several BLAS-1 and BLAS-2 routines and show how the performance of their sequences can be improved by fusions. Compared with similar sequences using CUBLAS, our compiler is able to generate code that is up to 2.24x faster for the examples tested.

Návaznosti
EE2.3.30.0037, projekt VaV	Název: Zaměstnáním nejlepších mladých vědců k rozvoji mezinárodní spolupráce
MUNI/A/0945/2015, interní kód MU	Název: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V.
MUNI/A/0945/2015, interní kód MU	Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace V., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
MUNI/A/1159/2014, interní kód MU	Název: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace IV.
MUNI/A/1159/2014, interní kód MU	Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace IV., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty

VytisknoutZobrazeno: 17. 4. 2024 01:01

Optimizing CUDA code by kernel fusion: application on BLAS

Další aplikace