STŘELÁK, David a Jiří FILIPOVIČ. Performance analysis and autotuning setup of the cuFFT library. Online. In ACM International Conference Proceeding Series. Limassol, Cyprus: ACM, 2018, s. nestránkováno, 6 s. ISBN 978-1-4503-6591-8. Dostupné z: https://dx.doi.org/10.1145/3295816.3295817.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Performance analysis and autotuning setup of the cuFFT library
Název česky Analýza výkonu a autotuning nastavení knihovny cuFFT
Autoři STŘELÁK, David (203 Česká republika, domácí) a Jiří FILIPOVIČ (203 Česká republika, garant, domácí).
Vydání Limassol, Cyprus, ACM International Conference Proceeding Series, od s. nestránkováno, 6 s. 2018.
Nakladatel ACM
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Spojené státy
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW URL
Kód RIV RIV/00216224:14610/18:00106596
Organizační jednotka Ústav výpočetní techniky
ISBN 978-1-4503-6591-8
Doi http://dx.doi.org/10.1145/3295816.3295817
UT WoS 000471021400001
Klíčová slova česky cuFFT; GPU; autotuning; analýza výkonu; cuFFTAdvisor
Klíčová slova anglicky cuFFT; GPU; autotuning; performance analysis; cuFFTAdvisor
Štítky rivok
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: Mgr. Michal Petr, učo 65024. Změněno: 27. 4. 2020 22:59.
Anotace
Fast Fourier transform (FFT) has many applications. It is often one of the most computationally demanding kernels, so a lot of attention has been invested into tuning its performance on various hardware devices. However, FFT libraries have usually many possible settings and it is not always easy to deduce which settings should be used for optimal performance. In practice, we can often slightly modify the FFT settings, for example, we can pad or crop input data. Surprisingly, a majority of state-of-the-art papers focus to answer the question how to implement FFT under given settings but do not pay much attention to the question which settings result in the fastest computation. In this paper, we target a popular implementation of FFT for GPU accelerators, the cuFFT library. We analyze the behavior and the performance of the cuFFT library with respect to input sizes and plan settings. We also present a new tool, cuFFTAdvisor, which proposes and by means of autotuning finds the best configuration of the library for given constraints of input size and plan settings. We experimentally show that our tool is able to propose different settings of the transformation, resulting in an average 6x speedup using fast heuristics and 6.9x speedup using autotuning.
Anotace česky
Rychlá Fourierova transformace (FFT) má mnoho aplikací. Často je jedním z výpočetně nejnáročnějších kernelů, proto bylo investováno mnoho úsilí do tuningu jejího výkonu na mnoha hardwareových zařízeních. FFT knihovny mají nicméně mnoho možných nastavení a není vždy jasné, jaké z nich použít pro optimální výkon. V praxi můžeme nastavení FFT knihovny často měnit, například můžeme doplnit či oříznout vstupní data. Většina současných prací se překvapivě zaměřuje na otázku jak implementovat rychlou FFT s daným nastavením, ale nevěnuje pozornost otázce jaké nastavení umožní nejrychlejší výpočet. V tomto článku se zaměřujeme na populární knihovnu pro FFT na GPU akcelerátorech -- cuFFT. Analyzujeme chování a výkon cuFFT knihovny s ohledem na velikost vstupu a nastavení plánu. Představujeme také nový nástroj, cuFFTAdvisor, který navrhuje a pomocí autotuningu vyhledává nejlepší nastavení knihovny s danými omezeními na velikost vstupu a nastavení plánu. Experimentálně dokazujeme, že náš nástroj je schopen nabídnout odlišné nastavení transformace, které vede v průměru k 6x zrychlení při použití rychlé heuristiky a 6.9x zrychlení při použití autotuningu.
Návaznosti
EF16_013/0001802, projekt VaVNázev: CERIT Scientific Cloud
VytisknoutZobrazeno: 4. 9. 2024 05:20