Perchè integrare CPU e GPU in un unico elemento
Integrazione tra GPU e CPU: è questa la principale evoluzione tecnologica che AMD e ATI si aspettano di presentare al mercato nei prossimi 2 anni. Il nome scelto per i prodotti che integreranno GPU e CPU è quello di Fusion, che ben simboleggia l'unione tra architetture sulla carta e di fatto molto differenti tra di loro. La risultante saranno una serie di prodotti sviluppati per svariati ambiti di impiego, nei quali quindi la combinazione tra parte CPU classica e parte GPU assumerà pesi differenti tra di loro.
Per quale motivo si vuole giungere a fornire soluzioni che integrino al proprio interno una GPU? La principale giustificazione è legata all'elevata potenza elaborativa di cui sono capaci le GPU, in termini di Gflops, rispetto a quanto accessibile con una CPU. Merito di questo risultato è l'innata capacità delle GPU di eseguire un gran numero di elaborazioni parallele, richieste per la generazione delle scene 3D. Sfruttando un'analogia, una CPU opera come un aereo da combattimento, estremamente veloce ma in grado di trasportare solo due persone contemporaneamente; una GPU è invece paragonabile ad un aereo di linea, meno veloce in assoluto ma capace di trasportare molte più persone e quindi di svolgere complessivamente più lavoro.
Le GPU hanno una potenza di elaborazione massima teorica estremamente elevata, sintetizzata dai Gflops che possono processare; si tratta tuttavia di una capacità per molti versi vincolata, che può essere sfruttata solo con quelle applicazioni che richiedono l'elaborazione di un elevato numero di dati in parallelo. Per questo motivo gli ambiti di utilizzo delle GPU in elaborazioni non grafiche di calcolo generale, o più semplicemente GP-GPU, sono limitati ad alcune tipologie di elaborazione; è evidente come nel corso dei prossimi anni gli sviluppatori software, grazie all'introduzione delle OpenCL e anche alla disponibilità di GPU sempre più complesse oltre che potenti e estremamente programmabili, potranno operare ad una nuova tipologia di software dove la GPU si prenda in carico i calcoli più pesanti in modo da eseguire operazioni in minor tempo possibile.
Un pò di storia
In un intervista al vice presidente esecutivo AMD Henri Richard vengono svelati alcuni dettagli sulla tecnologia AMD Fusion.
"Penso che "Fusion" sia un processo evolutivo, piuttosto che una fusione"
In poche parole AMD pensa a questo progetto come un vero e proprio processo evolutivo delle attuali CPU.
Il primo tentativo in assoluto fu la creazione di un Dual core nativo K10 senza cache L3 a 45nm SOI la quale sarebbe stato accoppiato sullo stesso package una IGP della serie RV620 (cioè la stessa degli attuali chipset AMD 785G/880G) costruita a 55nm bulk; lo stile costruttivo era lo stesso dei processori Intel core Clarkdale.
Il progetto fu accantonato per problemi logistici legati alle differenti tecnologie costruttive dei due chip principali (CPU IBM SOI e GPU TSMC bulk); così il primo progetto Fusion fu cancellalo ma AMD come eredità rilasciò sul mercato il K10 Dual core nativo con il nome di Athlon2 core Regor.
APU Llano: il futuro di AMD!
AMD passò quindi allo scenario più complesso cioè un unico componente di silicio nel quale i transistor della parte CPU sono integrati con quelli della parte GPU e viceversa con tecnologia costruttiva a 32nm SOI.
APU (Accelerated Processing Unit) Llano sarà composto da core X86 derivanti dall'architettura K10 e una GPU DX11 costruiti e prodotti entrambi a 32nm con tecnologia SOI; questa soluzione rappresenterà la prima GPU ATI costruita con la tecnologia SOI di IBM.
Ciascuno dei core x86 implementati nella APU avrà una superficie complessive molto contenuta, pari a 9,69 millimetri quadrati, per un totale di poco più di 35 milioni di transistor; da questo conteggio è esclusa la cache L2 da 1 Mbyte, indipendente per ciascuno dei core. AMD dichiara un range di consumo variabile da un minimo di 2,5 Watt sino a 25 Watt per ciascuno dei core: questo significa, con tutta probabilità, che sarà possibile vedere sul mercato versioni di APU con valori di TDP molto diversi tra loro.
Per questi core AMD dichiara frequenze di clock uguali o superiori ai 3 GHz, con tensioni di alimentazione variabili da 0,8V a 1.3V a seconda della frequenza e del risparmio energetico.
Per le prime soluzioni Fusion AMD ha ripreso un core con architettura K10, ottimizzandone il funzionamento in contesti nei quali il contenimento dei consumi sia di primaria importanza e facendo in modo che core x86 e la GPU possano condividere lo stesso controller RAM.
Più avanti AMD utilizzerà l'architettura Bulldozer per le future soluzioni APU; questo avverrà, con tutta probabilità con il passaggio al processo produttivo a 22nm SOI previsto per il 2013.
Piattaforma AMD "Linx"
A partire dal 2011 AMD, per il mercato mainstream, presenterà la piattaforma "Linx" dove ci saranno le prime APU basate sulla tecnologia FUSION.
La APU sarà basata su 4 core X86-x64 AMD derivanti dall'architettura "Stars" o più comunemente chiamata K10; il modello di riferimento è il core Propus, naturalmente riveduto e corretto grazie anche al processo produttivo a 32nm SOI.
Llano avrà una cache L2 da 1MB per core X86, mentre la cache L3 sarà assente.
La GPU integrata nello stesso pezzo di silicio, dovrebbe avere 400/480 stream processors divisi in 6 SIMD engines con una capacità di calcolo massima classe; questa modello di APU avrà circa un 1 miliardo di transistor. "Gigaflops"; CPU e GPU condivideranno lo stesso controller di memoria DDR3 con una frequenza massima ipotizzabile massima di 1600/1866Mhz.
La nuova APU non avrà bisogno di alcun chipset o Northbridge tradizionale in quanto tale elemento sarà integrato; per quanto riguarda il Southbridge AMD presenterà la nuova serie SB900; in particolare la versione Hudson M/D3 sarà il prima a supportare lo standard USB 3.0.
Piattaforma AMD "Sabrine"
Per il mercato Mobile AMD presenterà la piattaforma "Sabine".
La APU "Llano" in versione mobile sarà presumibilmente uguale alla versione Desktop, quindi con 4 core X86-x64 AMD K10 con L2 da 1MB senza cache L3; la GPU dovrebbe avere circa 400/480 stream processors con una capacità di calcolo massima classe "Gigaflops"; CPU e GPU condivideranno lo stesso controller di memoria DDR3.
Anche in questo caso la APU non avrà bisogno di alcun chipset o Northbridge tradizionale in quanto tale elemento sarà integrato; per quanto riguarda il Southbridge AMD presenterà la nuova serie SB900 la quale la versione Hudson M/D3 sarà il prima a supportare lo standard USB 3.0.
Architettura "Bobcat"
Abbiamo visto come AMD per Llano abbia adattato una GPU ATI costruita con tecnologia bulk alla tecnologia SOI di IBM; per quest'altra APU AMD ha studiato il processo inverso.
In pratica ha adattato dei core X86 AMD utilizzando tecnologia produttiva bulk wafer TSMC con lo scopo di creare una CPU senza la tecnologia SOI di IBM, in modo da adattare i due componenti (CPU AMD e GPU ATI) in un unica catena produttiva.
Tale soluzione verrà utilizzata per la piattaforma "Brazus", composta da un APU con core X86 derivanti da una nuova architettura denominata "Bobcat" e una GPU DX11, costruiti entrambi con silicio 40nm bulk provenienti dalla fonderia TSMC; questa nuova soluzione andrà nello stesso mercato delle CPU ATOM di Intel.
"Bobcat" è il nome dell'architettura X86 studiata per i sistemi a basso consumo, dove attualmente vede le CPU Atom come leader.
Il primo elemento distintivo dell'architettura Bobcat è la possibilità di operare con un livello di consumo inferiore a 1 Watt con alcune specifiche versioni
A differenza di Atom, Bobcat è un architettura di tipo out of order, comune alla maggior parte dei moderni processori x86, questa soluzione permette di ottenere migliori prestazioni grazie alla possibilità del processore di riorganizzare le istruzioni in modo tale che la loro esecuzione sia la più efficiente possibile in termini di prestazioni velocistiche.
L'altra faccia della medaglia è un certo dazio da pagare in termini di consumi massimi; tuttavia Bobcat dovrebbe essere l'ideale tra consumi, ridotte dimensioni e potenza elaborativa di una cpu x86 moderna.
L'architettura di Bobcat utilizza un design Dual issue, con due pipeline a 15 fasi contro le 16 fasi nell'architettura Atom.
L'ago delle prestazioni rimane a favore di Bobcat grazie al design out of order, la quale permetterà di avere livelli prestazionali, a parità di clock, ben più elevati delle soluzioni Atom su applicazioni single threaded; Bobcat supporta i set di istruzioni SSE sino alla release 3 comprese le tecnologie di virtualizzazione.
Per quanto riguarda la cache L1 sarà in due blocchi da 32KB ciascuno, rispettivamente per dati e istruzioni, del tipo associativa a 8 vie con latenza di 3 cicli di clock.
La cache L2 sarà di 512KB a 16 vie, con latenza di 17 cicli di clock.
I core X86 di Bobcat verrà utilizzato nelle prime soluzioni APU della famiglia Fusion, la GPU dovrebbe avere circa 80 stream processors cioè paragonabile più o meno alla GPU HD5450; anche in questo caso CPU e GPU condivideranno lo stesso controller di memoria DDR3.
Per economizzare al massimo i consumi AMD ha implementato le tecnologie clock gating, power gating e states di tipo low power; quest'ultimo consente di abbassare al massimo il livello di consumo in idle.
A completare le funzionalità una serie di innovazioni micro architetturali che riducono al minimo i trasferimenti di dati interni al chip, oltre a ridurre il numero di loro letture allo stretto indispensabile.
AMD non ha fornito informazioni ufficiali sul memory controller DDR3, tuttavia alcune voci parlano di un supporto massimo alle DDR3 1333Mhz a basso consumo; il controller RAM verrà condiviso tra i core X86 e GPU.
Bobcat troverà spazio nelle soluzioni APU Ontario, costruite con tecnologia produttiva a 40nm bulk prodotto da TSMC.
L'uscita di Ontario è prevista per i primi mesi del 2011.
Piattaforma "Brazos"
Attesa per il 2011 la piattaforma "Brazos" sarà composto da CPU con core "Ontario" costituito dall'architettura X86 "Bobcat" in configurazione single/dual core e una GPU DX11; il valore TDP può variare tra i 9W e i 18W a secondo dei modelli.
Ci sarà anche una versione desktop a basso consumo chiamata “Zacate” la qualè riprende tutte le caratteristiche sia di TDP sia di core, GPU della piattaforma Brazos core Ontario.
Entrambi le piattaforme avranno dei nuovi Southbridge serie SB900 modello Hudson M/D1 la quale potranno gestire porte SATA3 ma NON le USB 3.0.
Modelli attualmente in commercio!
?E-Series Socket FT1?
40nm Bulk
Core Zacate
GPU DX11
Step ??
cache L2 512KB x 2
Memoria supportata
Single channel DDR3/DDR3L-800-1066-1333Mhz
?AMD E-350 Dual core/HD6310
Frequenza di clock
1.60GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
500Mhz
TDP
18W
?AMD E-250 Single core/HD6310
Frequenza di clock
1.50GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
500Mhz
TDP
18W
?C-Series Socket FT1?
40nm Bulk
Core Ontario
GPU DX11
cache L2 512KB x 2
Memoria supportata
Single channel DDR3/DDR3L-800-1066-1333Mhz
?AMD C-50 Dual core/HD6250
Frequenza di clock
1.00GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
280Mhz
TDP
9W
?AMD C-30 Single core/HD6250
Frequenza di clock
1.20GHz
Numero Stream processor GPU
80 (40+40)
Frequenza di clock GPU
280Mhz
TDP
9W