Jump to content

[Thread Ufficiale] NVIDIA GF100 - GeForce GTX 480/470/465


Achille GForce

Recommended Posts

NVIDIA FERMI SERIES

24461.gif

THE WAY NVIDIA IT'S MEANS TO BE PLAYER

The Biggest Best DX11 GPU

IS BACK !

:perfido:

 

55707614.jpg

IMG0028288.gif

 

La nuova architettura DX11 di Nvidia denominata GF100 per le GeForce e GT300 per Tesla e quadro, per distinguere l'architettura che probabilmente rivoluzionerà il mondo del GPU computing grazie all'enorme potenza in doppia precisione e al numero incredibilmente cresciuto di linguaggi di programmazzione con cui è ora compatibile e inoltre dovrebbe portare una rivoluzione sul calcolo parallelo, e probabilmente con una nuova denominazione ovvero GTX 480 e GTX 470, è prevista per Marzo con frequenze di 607/1215/1648 Mhz per la versione minore & 704/1404/1868 Mhz per la versione top inziale rispettivamente con TDP di 215 e 250W di TDP con rispettivamente 448 e 480 / 512 CUDA Cores ( quest'ultima possibilmente prevista in seguito in versione Ultra probabilmente anche con freqeunze superiori ) e dotati di ampiezza di banda rispettivamente di 320-384bit abbinati a memorie di tipo GDDR5.

 

f17eb6ff-8840-44c7-9645-7c3e4ba6d721.jpg?dt=1269603112370

 

Fermi prevede 2 warp scheduler per SP, ovvero per ogni gruppo di 16 alu, questo vuol dire che può mandare in esecuzione 2 thread differenti su 2 diversi gruppi di 16 alu, anche se però non significa che una singola alu può eseguire 2 thread in parallelo.

Ovvero, in G80 e GT200, ogni SP può eseguire una istruzione per volta (è un processore di tipo SIMD); questo significa che tutte e 16 le alu di G80 o tutte e 24 quelle di GT200 eseguono la stessa istruzione nello stesso ciclo. In fermi, ogni SP raggruppa 32 alu ma contiene 2 warp scheduler. Un warp equivale a 32 thread, che sta a significare che, contrariamente a G80 e GT200, in cui veniva mandato in esecuzione un warp per ogni SP, in fermi si pososno mandare in esecuzione 2 warp per SP, ossia un gruppo di 16 alu può eseguire un'istruzione differente dall'altro gruppo. Questo serve soprattutto per le operazioni a granularità più fine. Per esempio, se un'operazione richiede un'esecuzione fortemente parallela della stessa istruzione, il vantaggio di avere 2 warp scheduler diventa pari a 0.

In ogni caso, in ciascuna architettura, la singola alu può eseguire una sola istruzione per ciclo.

Mentre il Motore grafico è stato nominato Polymorph Engine, ed è in grado di eseguire qualunque calcolo all'interno di ogni alu parallelamente, in questo modo è in grado di sfruttare al massimo la potenza del chip in ogni occasione senza colli di bottiglia da limiti di parti dedicate. Gran parte dei risultati delle slide di Nvidia danno questa soluzione come un enorme risorsa visto che si è stati in grado di aumentare la potenza geometrica di 8 volte rispetto a GT200 e la cosa si è manifestata duranti alcuni test a confronto con una GTX 285, sia con Physx che con il Tessellation dove promette prestazioni al vertice anche ben superiori ad ATI.

 

 

schema_blocchi_gf100.gif

 

Nelle GPU GF100 sono integrati 512 CUDA Cores, nome scelto da NVIDIA per indicare i propri stream processors. Il numero di 512 è ovviamente quello massimo: non è quindi detto che tutte le schede GeForce basate su architettura Fermi verranno proposte con questo numero di CUDA Cores, bensì ci pare molto probabile che alcune versioni di scheda possano vedere alcune parti disabilitate, con una conseguente riduzione nel numero di cores a disposizione.

Le GPU GF100 vedono i 512 CUDA Cores divisi in blocchi, ciascuno dei quali è indicato come streaming multiprocessor o SM; l'approccio richiama quanto già visto con le precedenti generazioni di architetture video NVIDIA a shader unificati compatibili con le API DirectX 10, con alcune ovvie differenze. Se in G80 e GT200 i core erano raggruppati a blocchi di 8 all'interno di un SM, in GF100 l'approccio è cambiato con un numero di core 4 volte superiore per ogni SM: siamo quindi ora a 32 core.

 

schema_blocchi_gf100_2.png

Dall'immagine è possibile vedere come ès trutturato ogni CUDA core.

Vediamo in dettaglio come sia costituito uno streaming multiprocessor. La parte centrale vede la presenza dei 32 CUDA cores: a gruppi di 4 sono associati a due unità di load e store (LD/ST), mentre 2 di questi gruppi, per un totale di 8 CUDA cores, sono abbinati ad una unità di tipo special function (SFU). A monte troviamo una cache per le istruzioni, seguita da due Warp Scheduler e da due unità per le operazioni di dispatch, collegate al registro dei files capace di gestire un massimo di 32.768 entry a 32bit.

 

gf100-big.png

 

Ogni singolo CUDA Core integra al proprio interno un Dispatch Port, una unità per la raccolta degli operanti, una unità in floating point e una per i calcoli interni oltre ad una result queue. Le elaborazioni interne ad ognuno di questi core sono eseguite con precisione IEEE-754 2008 per le operazioni in virgola mobile e a 32bit per quelle con interi: la risultante sono unità di elaborazione indipendenti per le due tipologie che sono pienamente compatibili con gli standard di mercato, caratteristica particolarmente utile non tanto in ambito gaming quanto in quello delle applicazioni GPU Computing.

E' evidente come l'architettura Fermi sia stata sviluppata per offrire capacità di elaborazione in double precision, utile per alcuni ambiti di calcolo GPU Computing, molto più elevata della prima implementazione fornita da GT200. Non solo il numero di stream processors è più che raddoppiato, ma la penalità data dall'elaborare in FP64 è sensibilmente più ridotta rispetto alla precedente generazione di GPU. G80, prima GPU NVIDIA per API DirectX 10, era del tutto sprovvista di supporto FP64.

 

Per ogni streaming microprocessor troviamo una cache dedicata da 64 Kbytes di capacità, partizionabile come memoria condivisa e come cache L1:in vari rapporti. Il rapporto è funzione del tipo di applicazione che viene eseguita: ricordiamo come GT200 integrasse una memoria cache da 16 Kbytes non partizionabile.

Ogni SM integra al proprio interno 4 texture units, per un totale quindi di 64 unità di questo tipo presenti all'interno di una GPU GF100 con 512 CUDA cores. Le textures units sono dotate di una propria cache dedicata integrata all'interno dello specifico SM.

 

raster-polymorph_t.jpg

PolyMorph engine si riferisce a una logica a funzione fissa comp divisa incinque stadi che lavora insieme al resto degli SM per svolgere calcoli su vertici, tassellate, trasformazioni viewport, impostazione di attribuiti e invio dati alla memoria. Tra ogni stadio, gli SM amministrano lo shading vertex/hull e quello domain/geometry. Da ogni PolyMorph engine, le primitive vengono inviate al motore raster, ognuno dei quali è capace di otto pixel per clock (32 pixel per clock in totale).

 

schema_blocchi_gf100_3.png

 

A seguire troviamo la texture cache specifica per le 4 unità di elaborazione presenti in ogni SM, in quantitativo pari a 12 Kbytes: in questo caso il valore è rimasto invariato rispetto a quanto implementato nelle GPU GT200. Uscendo dallo specifico SM nel quale il thread viene processato si incontra la cache L2 unificata, triplicata in quantità rispetto a GT200 sino a 768 Kbytes, e a seguire il controller memoria GDDR5 da 384bit di ampiezza. Anche per il controller memoria, come menzionato per il numero di CUDA cores, è possibile che NVIDIA possa implementare alcune restrizioni per alcune versioni di schede GF100; uno scenario plausibile vede l'utilizzo di 10 chip memoria sulla scheda, con un bus da 320bit di ampiezza. A completare l'architettura segnaliamo la presenza di 4 unit per le operazioni di rasterizzazione, ciascuna quindi collegata ad un blocco di 4 SM, e 16 Polymorph Engine, nome scelto da NVIDIA per indicare le geometry units, ciascuno integrato in un SM. Analizzeremo questo componente nello specifico nelle pagine seguenti, parlando di capacità di elaborazione geometrica delle soluzioni GF100. Per ogni GPU NVIDIA ha implementato 48 ROPs: a titolo di confronto le architetture ATI RV880, utilizzate nelle schede Radeon HD serie 5800, integrano 32 ROPs, al pari delle soluzioni NVIDIA GeForce GTX 200.

 

header_3d_vision.jpg

 

Immagine dell'applicazione della tecnologia Surround, rivale di Eyefinity a cui sarà affiancata anche l'attuale e classica 3D Vision, che permette la visualizzazione in 3D dei titoli dedicati grazie a una parziale sovrapposiaizone di una coppia di frames.

Quì sotto invece viene chiaramente presentato il destino del attuale prodotto ATI che avverrà in molte macchine di utenti appassionati all'uscita di Fermi.

 

 

 

img0028287.jpg

 

 

Edited by Achille GForce
Link to comment
Share on other sites

  • Replies 4.1k
  • Created
  • Last Reply

Top Posters In This Topic

Recensioni GTX 470

http://www.xtremehardware.com/recensioni/schede-video/zotac-geforce-gtx-470-201007303815/

NVIDIA GeForce GTX 470 Review

NVIDIA GeForce GTX 480 e 470: Fermi, finalmente! - Hardware Upgrade - Il sito italiano sulla tecnologia - www.hwupgrade.it

GeForce GTX 470 & 480 review

GeForce GTX 480 e 470, la recensione di Nvidia Fermi - Tom's Hardware

Test: Nvidia GeForce GTX 470 - 12.04.2010 - ComputerBase

http://www.hardware.fr/articles/787-1/dossier-nvidia-geforce-gtx-480-470.html'>http://www.hardware.fr/articles/787-1/dossier-nvidia-geforce-gtx-480-470.html

 

Recensioni GTX 480

 

CONCLUSIONI :

 

Prestazionalmente GTX 470 è vicina anche se complessivamente sembra comunque sotto alla 5870 come prestazioni globali anche se dipende dalle circostanze, mentre la GTX 480 è prestazionalmente superiore a tutte le vga single GPU nel mercato, consumi e temperature però raggiungono livelli esagerati, ovviamente non da escludere che le prossime versioni di driver o particolari titoli possano aumentare le prestazioni di entrambe le schede e migliorarne il rapporto prestazionale.

 

Novità sul piano AA e Tessellation che sembrerebbe essersi rivelato meglio implementato su Nvidia grazie al Polymorph Engine e all'architettura Fermi che nella controparte ATI più un molto migliore assorbimento e riproduzione delle tecnologie proprietarie quasi Physx e 3D Vision dove nella generazione precedente GT200 i frames assorbiti potevano complicare l'esperienza di gioco mentre invece ora sembrno mantenere quasi tutti frames più che adeguati.

 

Alcuni portali palano di sicurezza dell'arrivo della famigerata versione a 512 CUDA core, inizialmente prevista per oggi, magari più avanti come Refresh del prodotto che potrebbe portare ad altri livelli prestazionali più elevati.

Edited by dj883u2
Link to comment
Share on other sites

Scaldono, anche da HU lo dicono e anche qui la GTX 470 va meno della controparte ATI: NVIDIA GeForce GTX 480 e 470: Fermi, finalmente! - Hardware Upgrade - Il sito italiano sulla tecnologia - www.hwupgrade.it

 

Sarebbe stato bello vedere con la HD 5970, ma stranamente non c'era !

Che dire, vediamo ora la domanda delle schede Fermi a quanto ammonta :)

Link to comment
Share on other sites

Il progetto su carta è molto valido... Però il lavoro da fare da parte di Nvidia era forse troppo; nuova architettura e passo alle directx 11 forse in tempi troppo brevi hanno costretto la casa costruttrice a lanciare sul mercato un prodotto, secondo me, ancora poco "maturo" rispetto alle potenzialità.

Sicuramente vedremo la vera potenzialità di Fermi nei progetti successivi, dove si spera che i problemi vengano risolti e le prestazioni, in rapporto, migliorate.

C'è da dire che anche Ati non starà a guardare; le loro soluzioni risultano ancora le migliori

Link to comment
Share on other sites

Il progetto su carta è molto valido... Però il lavoro da fare da parte di Nvidia era forse troppo; nuova architettura e passo alle directx 11 forse in tempi troppo brevi hanno costretto la casa costruttrice a lanciare sul mercato un prodotto, secondo me, ancora poco "maturo" rispetto alle potenzialità.

Sicuramente vedremo la vera potenzialità di Fermi nei progetti successivi, dove si spera che i problemi vengano risolti e le prestazioni, in rapporto, migliorate.

C'è da dire che anche Ati non starà a guardare; le loro soluzioni risultano ancora le migliori

 

Tra la GTX 480 e la HD 5970 chi ha la meglio ? :cheazz:

Link to comment
Share on other sites

Il progetto su carta è molto valido... Però il lavoro da fare da parte di Nvidia era forse troppo; nuova architettura e passo alle directx 11 forse in tempi troppo brevi hanno costretto la casa costruttrice a lanciare sul mercato un prodotto, secondo me, ancora poco "maturo" rispetto alle potenzialità.

Sicuramente vedremo la vera potenzialità di Fermi nei progetti successivi, dove si spera che i problemi vengano risolti e le prestazioni, in rapporto, migliorate.

C'è da dire che anche Ati non starà a guardare; le loro soluzioni risultano ancora le migliori

 

 

indubbiamente

 

sono stati costretti ad arrivare a quei consumi stratosferici per dare alle schede le prestazioni per superare la 5870

 

su Hwupgrade nn hanno fatto le prove di overclock semplicemente perché è molto probabile che ormai nn salgano più

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


×
×
  • Create New...