PA039: Architektura superpočítačů a náročné výpočty
Luděk Matýska
Fakulta informatiky MU
Jaro 2016
Luděk Matýska (Fl MU)
Uvod
Jaro 2016 1/67
Pravidla hry
• Účast na prednáškach není povinná
• Zkouška
• Pouze písemná, 90 minut
• Termíny budou k dispozici během dubna
• Kolokvium
• Projekt, nutno se přihlásit před koncem března
Luděk Matýska (Fl MU)
Uvod
Jaro 2016       2 / 67
High Performance Computing
Formule 1 v oblasti počítačů
• Velmi drahé stroje, ovšem špičkových parametrů (výkonu) Specifické uživatelské skupiny
• Rozsáhlé simulace
• Modelování (automobily, letadla, ...)
S jídlem roste chut
• Požadavky rostou rychleji než výkon procesorů
• Roste ale i složitost procesorů
Kvalita programování určuje použitelnost
Luděk Matýska (Fl MU) Úvod Jaro 2016       3 / 67
High Performance Computing II
• Procesory
• CISC
• RISC
• Vektorové procesory
• Streaming procesory (např. GPU)
• Speciální systémy FPGA, ...).
• Paměti - výkon se zpožduje za procesory
Luděk Matýska (Fl MU)
Uvod
HPC-požadavky
• Klesá poměr teoretický_výkon/dosažený_výkon
• Reakce: je třeba lépe pochopit
• architekturu použitého počítače;
• příčiny, proč určitý kód je podstatně rychlejší než zdánlivě ekvivalentn varianta;
• způsoby měření reálného výkonu (programu a/nebo procesoru)
Luděk Matýska (Fl MU)
Uvod
Jaro 2016 5
High Throughput Computing
Nejvyšší aktuální výkon versus Nejvyšší využití
• dlouhodobé efektivní využití počítačových systémů
• velké množství menších úloh
• Není kritická rychlost zpracování jedné úlohy
• Podstatný celkový čas zpracování
• Efektivita
• maximalizace „investice"
• celková propustnost systému
Luděk Matýska (Fl MU) Úvod Jaro 2016       6 / 67
PA039: Architektura superpočítačů a náročné výpočty
Procesory a paměti
Luděk Matýska
Fakulta informatiky MU
Jaro 2016
Luděk Matýska (Fl MU)
Procesory
Jaro 2016       7 / 67
Základní aspekty - co určuje výkon
o Latence (zpoždění)
• zpracování/přenos signálů uvnitř procesorů či paměti
• přenos dat mezi procesorem a pamětí
• zpoždění přímo v paměti
• Rychlost obnovení (cycle times)
• rychlost přepínání obvodů
• frekvence obovdů (vnitřní hodiny")
• obnovení paměti (dynamická pamětí)
• Propustnost (rychlost přenosu jednotky dat)
• rychlost přenosu dat na chipu
• počet instrukcí per cyklus
• rychlost přenosu mezi komponentami
a Granularita
• hustota na chipu
• hustota paměti
• velikost úlohy
Luděk Matýska (Fl MU) Procesory Jaro 2016       8 / 67
Procesory - CISC
Complex Instruction Set Computer
• Příklady:
• PDP 11, VAX, IBM 370, Intel 80x86, Motorola 680x0, ...
• Princip:
• Nedělej programem to, co může udělat hardware
• Pojem CISC fakticky vytvořen až jako protiklad proti RISC procesorům
Luděk Matýska (Fl MU) Procesory Jaro 2016       9 / 67
Důvody existence
• Velikost a rychlost paměti
• Srovnání s rychlostí samotných procesorů
a Přímá podpora překladačů
• Adresování (přístup k paměti)
Luděk Matýska (Fl MU)
Procesory
M i kroprogra mová n í
CISC - složité instrukce
• Řídící část procesoru příliš rozsáhlá
• Mikroinstrukce: Dekompozice na jednodušší instrukce
• Složitá instrukce == mikroprogram Jednodušší návrh hardware
• Instrukce jsou emulovány
Je možno „snadno" změnit instrukční sadu konkrétního počítače =>* rodina počítačů (IBM 360, 370, VAX, ...)
Nevýhody: příliš složité instrukce, stále složitější analýza instrukcí, zátěž zpětné kompatibility (v rámci rodiny)
Luděk Matýska (Fl MU)
Procesory
Jaro 2016       11 /
Zvyšovaní výkonu
9 Rychlost hodin udává výkon procesoru
• Omezeno aktuálními technologickými možnostmi
• Nelze neomezeně zvyšovat
• Závislosti mezi komponentami
• Rychlost šíření signálu
• Řešení: paralelizace procesů
Luděk Matýska (Fl MU) Procesory Jaro 2016       12 / 67
Pipelining
Překrývání instrukcí v různých fázích rozpracovanosti instrukce —
Tři základní oblasti: O Zpracování instrukcí O Přístupy k paměti O Výpočty v pohyblivé řádové čárce
výsledky
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
Pipelining II
Běžný rozklad instrukcí (pětiúrovňový pipelining):
Instruction Fetch instrukce je načtena z paměti
Instruction Decode instrukce je rozeznána (dekódována)
Operand Fetch jsou připraveny operandy (načteny z registrů a/nebo paměti)
Execute instrukce je provedena
Writeback výsledky jsou zapsány zpět (do registrů a/nebo paměti)
Jednotlivé instrukce jsou zpracovávány paralelně, s posunem o jednu fázi pipeline.
Luděk Matýska (Fl MU)
Procesory
Jaro 2016       14 /
Pipelining a pamět
„Neviditelný" pipelining
• Předsunutí čtení (zápisu) z (do) paměti před vlastní instrukci pracující s daty
„Viditelné" pipelines
• Explicitní instrukce, s přesně definovaným počtem cyklů do dokončení.
• Např. Intel 80860
Luděk Matýska (Fl MU) Procesory Jaro 2016       15 / 67
Procesory - RISC
Reduced Instruction Set Computer
• První RISC: CDC 6600 (Seymour Cray)
• První polovina 60. let (1964)
Explicitní RISC koncept představují osmdesátá léta
• Podmínky vzniku RISC systémů
• Zavedení vyrovnávacích pamětí (cache)
• Dramatický pokles ceny a vzrůst velikosti hlavních pamětí
• Lepší pipelining
• Kvalitně optimalizující překladače
Luděk Matýska (Fl MU) Procesory Jaro 2016       16 / 67
RISC podmínky II
9 Rychlost přístupu k paměti přestala být (hlavním) úzkým místem
• vužití vyrovnávacích pamětí (cache)
• využití interních registrů (méně přímých přístupů do paměti)
• Velikost programu přestala být podstatná (i rozsáhlé programy se snadno vejdou do paměti)
• Problém: zadržení (stall) při čekání na výsledek předchozí instrukce (v CISC příliš složité vazby)
• Není třeba složitých instrukcí (naopak); čitelnost assembleru přestává být podstatná
Luděk Matýska (Fl MU)
Procesory
Jaro 2016       17 /
Charakteristiky RISC
• Jednotná délka instrukcí
• Pečlivý výběr skutečně používaných instrukcí
• Jednoduché adresní módy
• Architektura Load/Store
• Dostatek registrů
• Odložené" skoky (delayed branches)
• Příklady:
• Na začátku předchůdci MIPS (Stanford) a SUN SPARC (UoC, Berkeley) architektur
• IBM s její Power Architecture (dnes PowerPC a POWER7)
• HP s PA-RISC
• DEC Alpha
• Intel I860 a i960 či Motorola 88000
• ARC, ARM, ...
Luděk Matýska (Fl MU) Procesory Jaro 2016       18 / 67
RISC - pokročilý návrh
a Ideál RISC první generace:
• Jedna instrukce každý tik hodin • Dnešní realita:
• Více jak jedna instrukce na tik
Luděk Matýska (Fl MU)
Procesory
Nové vlastnosti
Superskalární Superpipeline
(Velmi) dlouhé instrukce ((Very) Long Instruction Word, (V)LIW)
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
20 / 67
Superskalární procesory
Vícenásobné procesní jednotky
• Aritmetické (ALU), Floating point (FPU) a další Příklady:
• RS/6000, SuperSPARC a vyšší, Motorola 88110, HP PA 7100 a vyšší, DEC Alpha, MIPS R8000 a vyšší, Intel Pentium, IBM P4, P5
Luděk Matýska (Fl MU) Procesory Jaro 2016       21 / 67
Superskalární procesory - vlastnosti
• Paralelismus v hardware
• Sekvenční programy
• Automatická11 paralelizace technickými prostředky
• Současné načtení více instrukcí
• Instrukce MADD (Multiply Add)
• Operace X*Y+Z
Procesory
Jaro 2016       22 / 67
Superpipeline
• Další zjednodušení obvodů
• Rozsáhlejší dekompozice pipeline
• Rychlejší provádění jednotlivých částí
• Výsledkem rychlejší výpočet
• Jiná forma paralelismu
• Nazývány též hluboké (deep) pipelines
Luděk Matýska (Fl MU) Procesory Jaro 2016       23 / 67
VLIW
• Obdoba superskalárních (mnoho jednotek)
• Paralelizace pod kontrolou překladače
• nárůst složitosti překladačů
9 zjednodušený hardware dovoluje vyšší výkon
• rozhodnutí které instrukce smí běžet paralelně je na překladači
• Výhody:
• Jednodušší instrukce
• Není třeba složitý řídící hardware
• Potenciál pro nižší spotřebu energie
• Příklady:
• Intel Í860
• triMedia media processors
• C6000 DSP family (Texas Instruments)
• Itanium IA-64 EPIC (částečně)
• Crusoe procesory firmy Transmeta
• Ruské superpočítače Elbrus
Luděk Matýska (Fl MU) Procesory Jaro 2016       24 / 67
RISC - další rysy
• Obcházení registrů
• Přejmenování registrů
• Skoky
• nulování operace
9 podmíněné přiřazeni (a = b<c ?
• vícenásobné „předčtení" z paměti
• buffer potenciálních cílů skoku
• před poved cíle skoku za běhu
• statistická (předem dána)
• dynamická
Luděk Matýska (Fl MU)
Procesory
ANDES
Architecture with Non-sequential Dynamic Execution Scheduling
a Východiska
• Zpomalení způsobeno čekáním na data
• Dynamický paralelismus
• Příklady
• HP PA 8000, MIPS R10000, ...
Luděk Matýska (Fl MU)
Procesory
Jaro 2016       26 / 67
ANDES - Architektura
o Vícenásobné fronty instrukcí
• celočíselná fronta pro celočíselné instrukce
• adresní fronta pro operace Load/Store
• fronta pohyblivé řádové čárky
a Nezávislá pipeline pro každou frontu • Vlastnosti
• instrukce vybírány podle připravenosti
• není dodrženo pořadí instrukcí v programu
• c/o/coA7ČeA7/xinstrukcí zajištuje správné uspořád
Luděk Matýska (Fl MU)
Procesory
ANDES - Spekulativní výpočet
Fetch	Decode				Graduate
		Issue	Execute	Complete	
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
28
/67
ANDES -
Další vlastnosti
9 Spekulativní skoky:
• výpočet pokračuje předpovězenou větví
• nečeká na výsledek instrukce
• Neblokující Load/Store
• Přejmenování registrů
Luděk Matýska (Fl MU)
Procesory
Pamět
• Organizace paměti:
• řádky a sloupce (matice)
• adresa má dvě části
• page mode - naráz čtena skupina souvisejících bytů
Vlastnosti pamětí
• Přístupová doba (memory access time)
• vystav řádek plus vystav sloupec plus vystav data
• Cyklus paměti (memory cycle time)
• určuje, jak často lze data číst
o Obé závisí na typu paměti (dynamická vs. statická)
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
31 / 67
Virtuální pamět
• Fyzická vs. logická adresa
• Více adresních prostorů
• Translation Lookaside Buffer (TLB)
• překlad logických adres na fyzické
• součást hardware
• TLB výpadky (misses)
• (Ne)použití v superpočítačích
Luděk Matýska (Fl MU)
Procesory
Vyrovnávací pamět
• Hit poměr
• Velikosti 4KB-16MB
• Organizace: řádky pevné délky, 16-128 bytů
• Typy:
• přímo adresovatelná (direct mapped)
• množinově (částečně) asociativní (set-associative)
• plně asociativní (fully-associative)
Luděk Matýska (Fl MU) Procesory Jaro 2016       33 / 67
Architektury
Harvard Memory Architecture
• oddělení paměti pro data a pro instrukce Programově ovládaná vyrovnávací pamět
• řízení u (některých) superskalárních procesorů (DEC Alpha)
Luděk Matýska (Fl MU) Procesory Jaro 2016       34 / 67
Přímo adresovatelná vyrovnávací pamět
• Statické mapování
• každý řádek vyrovnávací paměti odpovídá předem určeným oblastem hlavní paměti
• Rychlé
• Jednoduché obvody
• Potenciálně neefektivní
Luděk Matýska (Fl MU)
Procesory
Jaro 2016 35
Plně asociativní vyrovnávací pamět
• Dynamické mapování
• asociativní pamět
• každý řádek vyrovnávací paměti zná adresy  svého" bloku
• současný dotaz na všechny řádky
• výběr řádku pro zneplatnění
o Velmi efektivní
• Velmi složité obvody - drahé
Luděk Matýska (Fl MU) Procesory Jaro 2016       36 / 67
Částečně asociativní vyrovnávací pamět
• Množina přímo adresovatelných vyrovnávacích pamětí
• Kombinace lepších vlastností obou extrémních přístupů
• zpravidla 2 a 4 cestné
Luděk Matýska (Fl MU) Procesory Jaro 2016       37 / 67
Šírka toku dat
o Bandwidth = maximální propustnost pamětového systému
• Měřena v bytech za sekundu
Propustnost není stejná mezi všemi komponentami
• Procesor - vyrovnávací pamět - hlavní pamět - externí pamět • Zpoždění (Latence)
• Doba mezi časem požadavku a časem přísunu dat
• Zvlášt významná pro přesun malých objemů dat
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
Prokládaná (Interleaved) pamět
• Rozdělení na menší bloky
• Následující adresy mapovány do různých bloků
• Umožňuje okamžitý přístup
• Běžné dvou až osminásobně prokládané pamětové subsystémy
• superpočítače mají vícenásobné prokládání
• Příklad: Convex C3 s 256 násobným prokládáním
• Hodiny 16 ns
• Opakovaný přístup k témuž banku: 300 ns (téměř 20 násobné zrychlení)
a Vyšší latence
• Odstíněna použitím pipeline
Luděk Matýska (Fl MU) Procesory Jaro 2016       39 / 67
Přeskládání přístupů k paměti
• Předchůdce ANDES
• Minimalizace následných přístupů do týchž banků paměti
• Kontrola závislostí Load a Store při běhu programu
• Příklad: Motorola 88110
Luděk Matýska (Fl MU) Procesory Jaro 2016       40 / 67
Procesor MIPS R8000
Zaveden 1993
Čtyřnásobná superskalární architektura, max 6 operací/cyklus
• Zdvojená ALU, zdvojená FPU a dvě Load/Store jednotky
• FPU s IEEE-754 standardní aritmetikou s nepřesným přerušením
• 32 registrů (64 bit) pro celočíselné a 32 registrů (64 bit) pro float operandy
• Podmíněné move instrukce (pro IF příkazy) Plně 64bitová architektura
• 128-bit datová sběrnice 40 bitová adresní sběrnice (max 1TB fyzické paměti) TLB dvoucestný, s 384 položkami
Luděk Matýska (Fl MU) Procesory Jaro 2016       41 / 67
MIPS R8000 (II)
Vyrovnávací paměti
• 16 KB l-cache (instrukce)
16 KB D-cache (dvoucestná, pouze pro celočíselná data) 2 KB branch prediction cache 4 MB streaming cache (výpočty v pohyblivé čárce)
9 9 9
Luděk Matýska (Fl MU) Procesory Jaro 2016       42 / 67
MIPS R8000 - l-Cache
Vyrovnávací pamět instrukcí
• Přímo adresovatelná
• 1024 položek po 128 bitech
• Adresována i označena (tagged) virtuální adresou
• Obchází TLB
• tag RAM - 512 položek (pro každý řádek)
• příznak
• ASID (Adress space identifier)
ASID rozlišuje shodné virtuální ale různé fyzické adresy
• bit platnosti
• dva bity oblasti
Luděk Matýska (Fl MU) Procesory Jaro 2016       43 / 67
MIPS R8000 - D-Cache
• Vyrovnávací pamět pro data
• Přímo adresovaná
• Dva paralelní přístupy
• 2 load nebo jedna load a jedna store instrukce současně
• Adresována virtuální, označena fyzickou adresou
• Write-through protokol
Luděk Matýska (Fl MU) Procesory Jaro 2016       44 / 67
MIPS R8000 (IV)
Srovnání vyrovnávacích pamětí
Parametr	l-cache	Branch	D-Cache	TLB
Umístění	IU	IU	IU	IU
Velikost	16 KB	2KB	16KB	
Položka	128 bit	16 bit	64 bit	
Počet položek	1024	1024	2048	384
Počet portů	jeden	jeden	dva	dva
Mapování	přímé	přímé	přímé	3-cestné
Index	Virtuální	Virtuální	Virtuální	Virtuální
Tag	Virtuální	N/A	Fyzická	N/A
Přístup	jeden cyklus	jeden	jeden	jeden
Šířka	128 bit	16 bit	64 bit	
Propustnost	1,2 GB/s	159 MB/s	1,2 GB/s	
Řádek	32 bytů	N/A	32 bytů	
Miss penalty	11 cyklů	3 cykly		
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
MIPS R8000 (V) - Rychlost prováděni operaci
Celočíselné
Latence
Add, shift, logical Load, store Multiply Divide
1 1
4(6)
21   (jmenovatel < 15 bitů) 39   (jmenovatel 16-31 bitů) 73   (jmenovatel 32-64 bitů)
Reálné
Move, negate, abs value Add, Multiply, MADD Load, Store Compare, cond. move Divide Square root Reciprocal Reciprocal sq. root
Latence
1 4 1 1
14 (20) 14 (23) 8 (14) 8(17)
Zdržení
1 1 1
I
II (17) 11 (20) 5(11) 5(14)
46 / 67
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
Procesor MIPS RIOOOO
• Zaveden 1996
• ANDES architektura, tři fronty
• Superskalární, 4 instrukce současně
• 2 ALU a 2 FPU (neekvivalentní)
• FPU s IEEE-754 standardní aritmetikou a přesným přerušením
• 32 (64 fyzických) registrů (64 bit) pro celočíselné operandy,
• 32 (64 fyzických) registrů pro float operandy
• přejmenování registrů
• Plně 64 bitová architektura
• 128 bit datová sběrnice, 40 bitová adresní sběrnice
• TLB plně asociativní, 64 položek (zdvojených) velikost stránky 4KB-16MB
Luděk Matýska (Fl MU) Procesory Jaro 2016       47 / 67
MIPS RIOOOO (II)
• Vyrovnávací paměti
• 32 KB l-cache (2-set associative)
• 32KB D-cache (dvoucestná, 2-set associative)
• předpověď skoků (4 úrovně)
• 1MB L2 cache
• Neblokující instrukce load a store
Luděk Matýska (Fl MU) Procesory Jaro 2016       48 / 67
MIPS R10000 (III)
• Výpočetní jednotky
• 2 ALU
• Společně
• Součet, Rozdíl a Logické operace
• Rozdílné
• ALU1: skoky a operace posunu
• ALU2: násobení a dělení (iteračně)
• 2 FPU (Další dvě jednotky (bez pipeline) pro dělení a odmocninu (iteračně))
• FPU1: sčítačka
• FPU2: násobička
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
MIPS RIOOOO - Fronty
• Celočíselná
• 16 položek
• až 4 instrukce současně zapsány
• Float
• 16 položek
• až 4 instrukce současně zapsány
• nelze současně zahájit Divide a Square root instrukce
• MADD instrukce projde oběma FPU
Luděk Matýska (Fl MU) Procesory Jaro 2016       50 / 67
MIPS RIOOOO -Fronty (II)
• Adresní
• 16 položek (FIFO)
• instrukce spustitelné v libovolném pořadí
• zápis a vyjmutí musí být sekvenční (zajištěno FIFO bufferem)
• znovuspuštění instrukce při neúspěchu (cache miss, konflikt, závislost)
MIPS R10000 (V) - Rychlost provádění operací
Celočíselné
Latence Zdržení
Add, shift, logical, branch 1
Load, store 2
Multiply (32 bit) 5-6
Multiply (64 bit) 9-10
Divide (32 bit) 34-35
Divide (64 bit) 66-67
Int to Float (32 bit) 4
Reálné
Move, negate, abs value
Add, Conversion, Mult
Load, Store
MADD
Divide
Square root
Reciprocal sq. root
1 1
6
10 35 67 1
Luděk Matýska (Fl MU)
Latence
1
2
3
4
12 (19) 18 (33) 30 (52)
Procesory
Zdržení
1 1 1 1
14 (21) 20 (35) 20 (35)
Jaro 2016
52 / 67
Procesor UltraSPARC-l
• Zaveden 1987 (Spare V9)
• Čtyřnásobná superskalární architektura
• 2 ALU, FPU (2 instrukce), GRU (Grafika)
• 32 FPU (64 bit) registrů
• 64bitová architektura; možnost volby little a big endianu
• 128 bitová datová sběrnice, 41 bitů fyzická adresa, 44 virtuální adresa
• 64 položek v TLB, stránky s 8 K, 64 K, 512 K nebo 4MB
• Visual Instruction Set
Luděk Matýska (Fl MU) Procesory Jaro 2016       53 / 67
UltraSPARC-l (II)
• Vyrovnávací paměti
• 16 KB neblokující D-cache
• 16 KB l-cache (s predikcí skoku)
• 0,5-4 MB L2 cache (propustnost 3,2 GB/s)
• Blokující load/store instrukce
Luděk Matýska (Fl MU) Procesory Jaro 2016       54 / 67
UltraSPARC-l - výpočetní jednotky
FPU
• Dělení a odmocnina samostatné (mimo FPU pipeline)
• 12 (22) cyklů pro jednoduchou (dvojnásobnou) přesnost
• neblokují pipelinované FPU instrukce 9 přesná přerušení
GRU
• 16 a 32 bitové shlukované sčítání a boolovské instrukce
• 8 a 16 bitové násobení
• skládání a rozbor dat
• přímý přístup k (grafické) paměti obcházející D-cache
• přímá podpora   motion compensation".
Luděk Matýska (Fl MU) Procesory Jaro 2016       55 / 67
Intel a AMD
» 32bitová architektura (IA32) CISC
o Vychází z 16bitového 8086 + 8087 a 80286
• 80386 (i386), i486, Pentium (i586), ...
• 2001: Itanium (IA64)
• nově navržená, zpětně nekompatibilní 64bitová architektura
• spolupráce s HP, převzata řada znaků RISC
• 2003-2004: AMD Opteron a Intel Xeon Nocona
• konzervativní rozšíření IA32
• AMD64, EM64T/lntel64, neutrálně x86-64
Luděk Matýska (Fl MU) Procesory Jaro 2016       56 / 67
Intel Itanium
• Vlastnosti 1. generace (do 2001)
• spekulativní vyhodnocení, predikce skoků, přejmenování registrů
• hrubozrnný multithreading
• 128 64 bit int a 128 82 bit float registrů
• až 6 instrukcí v taktu
• 6 ALU jednotek, 4 MADD jednotky
• speciální instrukce pro multimédia apod.
• hardwarová podpora virtualizace
• pomalá emulace IA32, chybějící kompilátory, průměrný výkon
• Druhá generace (2002-2010)
• společný vývoj s HP
• určen spíše pro podnikové systém y než H PC
• poslední verze (Tukwila) na 65nm
• Intel QuickPath propojení (místo sběrnice)
• výrazné posílení pamětového subsystému, 4 jádra
• Itanium 9500 (2012)
• 32nm, 8 jader, až 54 MB vyrovnávací pamět
• naznačena postupná konvergence s Intel Xeon procesory
Luděk Matýska (Fl MU) Procesory Jaro 2016
Současné procesory x86-64
• Označení Sandy Bridge (32nm) a Ivy Bridge (22nm)
• pamět
• 3-4 paměťové kanály
• 32+32 kB LI cache, 4/8 čestná asociativní, privátní
• 256 kB L2 cache, 8 čestná, privátní
• až 24 MB L3 cache, 16 čestná, sdílená mezi jádry
• 4-8 jader, hyperthreading
• cca. 10 paralelních výkonných jednotek
• buffer cílů skoku
• fúze instrukcí (např. porovnání + skok)
• dekódování na mikroinstrukce (podobné MIPS), mikrofúze
• out-of-order spekulativní vyhodnocení
• AES instruction set, SHA-1
• Advanced Vector Extensions, 256bitové instrukce
Luděk Matýska (Fl MU) Procesory Jaro 2016       58 / 67
Intel® Xeon Phi™ Coprocessor Block Diagram
Luděk Matýska (Fl MU)
Procesory
Jaro 2016       59 /
67
IBM Powerľ procesor
• vyvíjen pro HPC, až 8 jader
9 12 procesních jednotek, 4 vlákna na jádro
• Parametry (45nm)
• 256 KB L2 na jádro
• 32 MB eDRAM sdílená L3 přes chip
• Duální DDR3 pamětové kontroléry
• 100 GB/s udržitelná propustnost na chip
• 360GB/s SMP propustnost per chip
• frekvence až 4,25 GHz (kapalinou chlazené)
Luděk Matýska (Fl MU) Procesory Jaro 2016       60 / 67
Power7
_____
P0WER8 Innovation P0WER7
POWERS 2010 POWERS 2007 2004 __m
65nm SOI
130nm SOI
45nm SOI eDRAM
POWER7+
2012
POWERS
32nm SOI eDRAM
22nm SOI eDRAM
2
SMT2
2
SMT2
SMT4
a
SMT4
12 SMTS
1.9MB 3BMB
8MB 32MB
2 * 32MB None
2 +80MB None
6 +96MB 12&MB
15GB/S 3GB/3
Luděk Matýska (Fl MU)
30GBfe IGGBte
100GB/3 20GBfc
Procesory
100GB/3 20GB/3
230GB/3 48GB/3
Jaro 2016
62 / 67
Power8
Tec hnology
*   ZZnm SOI, eORAMp 1b ML 650rnm2
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
63
/67
P0WER8 Core
Execution Improvement vs. POWER?
• SMT4^SMT8
• 8 dispatch
• 10 issue
• 16 execution pipes:
• 2FXU,2LSU!2LU,4FPU1 2 VMX, 1 Crypto, 1 DFU, 1 CR, 1 BR
• Larger Issue queues (4 x 16-entry)
• Larger global completion, Load/Store reorder
• Improved branch prediction
• Improved unaligned storage access
i
DFU
3 ■ St
LSU
Larger Caching Structures vs. POWER7
• 2x L1 data cache (64 KB)
• 2x outstanding data cache misses
• 4x translation Cache
Wider Load/Store
• 32B ^ 64B L2 to L1 data bus
• 2x data cache to execution dataflow
Enhanced Prefetch
• Instruction speculation awareness
• Data prefetch depth awareness
• Adaptive bandwidth awareness
• Topology awareness
Core Performance vs . POWER7 ~1.6x Single Thread ~2x Max SMT
Luděk Matýska (Fl MU)
Procesory
Jaro 2016
64
/67
Víceprocesorové systémy
• Frekvenci už nelze příliš zvyšovat
• Zvyšování výkonu zvýšením počtu
• Propojení více procesorů (socketů)
Luděk Matýska (Fl MU)
Procesory
Víceprocesorové systémy
• Míra škálování (počet socketů)
• AMD: 4, Intel 8, IBM 32
• vlastní řešení HP (Intel) 8, Bull 16, SGI ~100
o Distribuovaná pamět
• centralizovaná by byla úzkým místem
• NUMA (Non-Uniform Memory Architecture)
Luděk Matýska (Fl MU) Procesory Jaro 2016       66 / 67
Víceprocesorové systémy
a Koherence cache
• přečtu, co jsem sám zapsal
• přečtu, co zapsal dříve někdo jiný
• pořadí zápisů vidí všichni stejné
• Stavy řádků cache
o uncached, shared, modified, . ..
• Protokoly udržování koherence
• adresářové
• snooping
Luděk Matýska (Fl MU)
Procesory