D 2018

Performance analysis and autotuning setup of the cuFFT library

STŘELÁK, David a Jiří FILIPOVIČ

Základní údaje

Originální název

Performance analysis and autotuning setup of the cuFFT library

Název česky

Analýza výkonu a autotuning nastavení knihovny cuFFT

Autoři

STŘELÁK, David (203 Česká republika, domácí) a Jiří FILIPOVIČ (203 Česká republika, garant, domácí)

Vydání

Limassol, Cyprus, ACM International Conference Proceeding Series, od s. nestránkováno, 6 s. 2018

Nakladatel

ACM

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Spojené státy

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14610/18:00106596

Organizační jednotka

Ústav výpočetní techniky

ISBN

978-1-4503-6591-8

UT WoS

000471021400001

Klíčová slova česky

cuFFT; GPU; autotuning; analýza výkonu; cuFFTAdvisor

Klíčová slova anglicky

cuFFT; GPU; autotuning; performance analysis; cuFFTAdvisor

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 27. 4. 2020 22:59, Mgr. Michal Petr

Anotace

V originále

Fast Fourier transform (FFT) has many applications. It is often one of the most computationally demanding kernels, so a lot of attention has been invested into tuning its performance on various hardware devices. However, FFT libraries have usually many possible settings and it is not always easy to deduce which settings should be used for optimal performance. In practice, we can often slightly modify the FFT settings, for example, we can pad or crop input data. Surprisingly, a majority of state-of-the-art papers focus to answer the question how to implement FFT under given settings but do not pay much attention to the question which settings result in the fastest computation. In this paper, we target a popular implementation of FFT for GPU accelerators, the cuFFT library. We analyze the behavior and the performance of the cuFFT library with respect to input sizes and plan settings. We also present a new tool, cuFFTAdvisor, which proposes and by means of autotuning finds the best configuration of the library for given constraints of input size and plan settings. We experimentally show that our tool is able to propose different settings of the transformation, resulting in an average 6x speedup using fast heuristics and 6.9x speedup using autotuning.

Česky

Rychlá Fourierova transformace (FFT) má mnoho aplikací. Často je jedním z výpočetně nejnáročnějších kernelů, proto bylo investováno mnoho úsilí do tuningu jejího výkonu na mnoha hardwareových zařízeních. FFT knihovny mají nicméně mnoho možných nastavení a není vždy jasné, jaké z nich použít pro optimální výkon. V praxi můžeme nastavení FFT knihovny často měnit, například můžeme doplnit či oříznout vstupní data. Většina současných prací se překvapivě zaměřuje na otázku jak implementovat rychlou FFT s daným nastavením, ale nevěnuje pozornost otázce jaké nastavení umožní nejrychlejší výpočet. V tomto článku se zaměřujeme na populární knihovnu pro FFT na GPU akcelerátorech -- cuFFT. Analyzujeme chování a výkon cuFFT knihovny s ohledem na velikost vstupu a nastavení plánu. Představujeme také nový nástroj, cuFFTAdvisor, který navrhuje a pomocí autotuningu vyhledává nejlepší nastavení knihovny s danými omezeními na velikost vstupu a nastavení plánu. Experimentálně dokazujeme, že náš nástroj je schopen nabídnout odlišné nastavení transformace, které vede v průměru k 6x zrychlení při použití rychlé heuristiky a 6.9x zrychlení při použití autotuningu.

Návaznosti

EF16_013/0001802, projekt VaV
Název: CERIT Scientific Cloud