
yossarian
Members-
Posts
77 -
Joined
-
Last visited
Content Type
Profiles
Forums
Events
Everything posted by yossarian
-
quello che nVIDIA vuole è una cosa, quello che può ottenere un'altra. Test: Grafikkarten 2009 (Seite 18) - 31.12.2009 - ComputerBase da qui non risulta che la 260 sia più veloce della 4870 se non in misura minima a lle basse risoluzioni o con i filtri disattivati (situazione in cui non serve una top di gamma); discorso analogo epr la 275 nei confronti della 4890. Anzi, con MSAA 8x attivo, la 4890 sta anche davanti alla 285. Per non parlare del caso di engine di tipo deferred, in cui l'applicazione del MSAA (da 4x in su) dà un boost di circa il 23-24% ai chip ATi con path dx10.1 o dx11. Faccio presente che con assassin's creed in versione dx10.1, a 1680x1050 con MSAA 4x (ossia ad una risoluzione per cui i 512 MB di ram non rendono frame buffer limited con i filtri attivi), persino la 4850 stava davanti alla 280 GTX.
-
non del tutto: nVIDIA ha dovuto implementare un hardware tessellator e delle tmu che fanno, comunque, texture sampling e addressing (anche se le operaizoni di blending le fa lo shader core). ATi ha tmu analoghe e un hw tessellator. Intel, con larrabee, non ha diffuso informazioni su chi si occuperà delle operazioni di tessellation, ma ha comunque dovuto rinunciare all'idea di fara fare le operazioni di texturing per intero alle fpu (ha anche lei adottato delle tmu che fanno texture sampling). Insomma, programmabile è bello ma non dove la programmabilità obbliga a tanti cicli di clock in più
-
non chiederlo a me facciamo un discorso un po' più ampio: fermi ha la possibilità di gestire 16 kernel (che non sono da intendersi come i kernel di un OS, ma come, più semplicemente, 16 gruppi di thread della stessa applicazione). Il tessellator è frazionato in 16 unità. Mettendo a sistema queste due cose, è possibile che, in un'applicazione in cui serva il tessellator, alcuni SP svolgano funzioni di tessellation e altri si occupino della grafica. Questo significa che, sulla carta. è possibile avere un tessellator che ha una capacità di calcolo minima pari a quella del singolo SP e massima pari alla somma di quelli dei 16 SP. Quindi, possiamo definirlo "modulabile". Ovviamente, quello o quegli SP che stanno lavorando sulle operazioni di tessellation non possono essere impiegati per fare altro. Questo significa che mentre quello di ATi può risultare a volte sottodimensionato e altre volte sovradimensionato ma lavora sempre con HW dedicato, quello di nVIDIA è in grado di dare potenza quando serve ma questa potenza la sottrae ad altri tipi di operazioni. Discorso analogo a quanto visto per physx, in parole povere.
-
due parole sul tessellator di nVIDIA Faccio un copia incolla di quanto ho scritto su hwu Il polymorph engine è un ibrido che prevede il tessellator vero e proprio in hardware e la sua parte programmabile eseguita dallo shader core. In pratica, nVIDIA ha scomposto la parte relativa alle operazioni geometriche della pipeline grafica, replicandone più volte gli elementi. Così, ogni gruppo di 128 alu ha un suo raster engine e ogni gruppo di 32 alu ha un suo tessellator dedicato. Trova riscontro l'ipotesi che avevo fatto tempo fa sulla possiblità di avere un tessellator hardware. Come dicevo allora,s e qualcosa si può emulare questi sono hull e domain shader (ossia la parte programmabile), come avviene in RV770, mentre è del tutto controproducente farlo con il tessellator vero e proprio. In pratica nVIDIA ha dotato ogni AP di un tessellator del tipo di quello visto per RV770 (ovviamente dimensionandolo al numero di alu che deve servire). Vantaggi di questa soluzione sono la riduzione dell'ammontare di hardware dedicato e la possibilità di disattivare anche l'hw dedicato alle operazioni di tessellation quando si disabilitano SP. Svantaggi: l'impatto sulle prestazioni è variabile e dipende da diversi fattori, ad iniziare dall'occuzione degli shader per finire con l'occupazione di banda tra shader core e polymorph engine. In questo caso, infatti, non si ha un flusso di dati che scorre in un solo verso, ma i vertici prelevati dallo stadio che fa vertex fetch passano allo shader core che svolge le funzioni tipiche degli hull shader, quindi tornano al polymorph engine per la tessellation, di nuovo alllo shader core per le operazioni di domain shading e, infine, al polymorph engine che prepara le operazioni di rasterizzazione. Questo complica ulteriormente la già complessa logica di controllo dei chip nVIDIA ma l'architettura con tessellator dedicato ad ogni SP dovrebbe ridurre l'impatto sulla banda passante tra polymorph engine e shader core (per essere più precisi si dovrebbero avere dati sulla capacità di trasferimento dati di quel canale).
-
i chip ATi, da RV630, hanno cluster di alu ridondanti per aumentare le rese produttive. RV870 ha 4 SP (320 alu) disabilitati come RV770 ne aveva 2
-
la news non parla di un test ma di una slide mostrata da nVIDIA in cui dovrebbe essere riportato il risultato di un bench fatto con un tool messo apunto dalla stessa nVIDIA per fermi. Quindi qualcosa ad hoc e non indicativo delle prestazioni generali. Non so fino a che punto prendere questa notizia come attendibile e, soprattutto, come indicativa delle prestazioni di fermi.
-
l'attuale fascia bassa e medio bassa continua ad essere derivata da g8x/g9x
-
lascia perdere, non vale la pena
-
molto dipende anche dalle prospettive future. Intel sta sviluppando il progetto terascale (di cui fa parte larrabee) e cercherà di spingere il gp computing su cpu (o su gpu simil cpu ). AMD, con le prossime architetture, punterà sui SoC con cpu che piloteranno gpu che faranno da coprocessori matematici. Per nVIDIA, non potendo sviluppare una cpu in proprio, l'unica è spingere sul gpgpu ma per fare ciò è "costretta" a progettare gpu sempre più simili alle cpu. In questo contesto, fermi rappresenta l'architettura base del nuovo corso.
-
su entrambi perchè è necessario mantenere un certo equilibrio tra i vari blocchi per evitare colli di bottiglia. In quanto alle frequenze, dipende da quale target nVIDIA si è prefissata per una eventuale 360 e dipende da quali frequenze si riuscirà effettivamente a raggiungere. Al momento le incognite sono ancora troppe
-
per come la vedo, la versione full la pomperanno al punto da superare la soglia del 10% e, probabilmente, da avvicinare quel 20% di cui ha parlato qualcuno. MOlto probabilmente non sarà la versione che uscirà per prima e sarà prodotta in pochissimi esemplari selezionati soprattutto per i bench. Questo, almeno, fino a che non sarà stato messo a punto il pp a 40 nm. direi che hai fatto centro. Fermi nasce soprattutto come gpu per i calcoli gp e non è un caso che si è insistito molto su questo aspetto. Il fatto è che gran parte della community si aspetta da nVIDIA il solito chip per gaming. Fermi è la gpu che più di tutte si avvicina ad una cpu come concezione (anche gli algoritmi di branch prediction sonmo molto somiglianti a quelli visti sulle cpu ARM, ad esempio). Questo si paga in termini di prestazioni in ambito gaming perchè una maggior complessità a livello logico sottrae spazio alle unità funzionali e fa sprecare cicli di clock. rv870 è in produzione già da alcuni mesi mentre fermi entrerà in produzione, sembrerebbe, a febbraio (questo avvalorerebbe i dubbi esressi sulle affermazioni di JHH sul fatto che la produzione procede a gonfie vele ). L'affinamento, anche solo parziale, del pp per un chip, porta solo benefici marginali ad un'architettura completamente diversa. Quel 4% potrebbe essere riferito alle rese iniziali di rv870 e potrebbe rispecchiare le rese iniziali di fermi. basta fare due calcoli: a livello teorico, il rapporto tra MADD di un ipotetico 360 con 1400 e 600 MHz rispettivamente con rv870 in versione 5870, sarebbe pari a 0,46 mentre quello tra GT200b e RV790 era pari a 0,52. Inoltre, a livello di capacità di fare texture fetch e texture address, per la prima volta dopo anni, un chip nVIDIA starebbe sotto, anche se di pocoi (112 TMU a 600 MHz contro 80 TMU a 850 MHz). Tieni conto che nel computo delle operazioni matematiche ho considerato le sole MADD perchè sono quelle più frequenti; se prendiamo come riferimento le flops, bisogna ricordare che GT200 esegue anche una MUL (che in fermi è andata "persa") che porta le operazioni totali a 1,063 Tflops contro le 708,5 MADD e il rapporto tra flops (tra GT200 e RV790) diventa di 0,78. non ci sarà una versione dual core, al massimo una dual gpu
-
posso fare il vago ma non fno a questo punto
-
poco probabile dipende molto dalle frequenze definitive; al momento dubito ci siano sample a 512 alu funzionanti. In futuro si dovrà vedere quali frequenze reggeranno. Alle frequenze della tesla (1400 MHz per gli shader e 600 circa di core) considerato il diverso rapporto alu/tmu rispetto a quello esistente tra RV770 e GT200, la differenza media, a occhio, sarebbe inferiore al 10%. Ma non credo che lo faranno uscire con le frequenze della tesla
-
no, non ci si avvicina neppure
-
dipende dalle frequenze definitive. Con quelle della tesla, ad esempio, sta sotto ad una 5870.
-
parla di voci riportate dai partner commerciali, quindi anche se non sono ufficiali sono, comunque, abbastanza attendibili (anche se la news dice "dovrebbero" e non lo da ancora per certo). Speriamo sia la volta buona
-
no, però potrebbe avere a che fare con la news riportata qui sotto se è confermata la presentazione il 10 marzo, allora entro i prossimi 20-30 giorni si avranno le informazioni mancanti (frequenze architettura delle tmu e delle rop's). Se la gf104 dovesse essere la gpu high end, allora sarebbe confermata la mia ipotesi su gf100 con numero ridotto di alu e gf104 (a tiratura limitata) per la fascia alta in un secondo tempo.
-
non sapevo si potesse editare; comunque il niubbo mi piace
-
più flessibile con le librerie significa che ATi, per adottare dx10.1 e dx11 non ha dovuto modificare molto poco; al contrario, nVIDIA non ha le dx10.1 (se non su qualche gpu di fascia bassa) e non ha, almomento, ancora le dx11 per cui ha dovuto progettare una nuova architettura in ogni caso. Dal punto di vista dell'azienda, il progetto di ATi è risultato migliore perchè molto più longevo di quello di nVIDIA nVIDIA è stata costretta a cambiare architettura (e già lo aveva doivuto fare con gt200, anche se in misura minore), non lo ha fatto per libera scelta. E rv870 non è uno shrink di rv770 e, ammesso che lo sia, questo è solo sintomatico della miglior scelta di ATi che con la stessa architettura sta davanti a nVIDIA come prestazioni assolute, come prestazioni per watt e come prestazioni per mm^2. qualsiasi chip, avendo le "giuste frequenze", sarebbe superiore a qualunque altro. Il problema è cercare di capire quali siano le giuste frequenze e se e possibile raggiungerle ed a che prezzo. rv770 sta abbondantemente davanti a g80. Se poi ti riferisci a gt200, basta fare una semplice considerazione: rv770 è 256 mm^2 e gt200 è 496 mm^2 a parità di pp. RV770, qualora non si faccia uso da path dx10.1, risulta, con impostazioni di tipo "qualità" ovvero con i filtri, solo, nel caso peggiore, un 10% medio più lento di gt200 (prendo come riferimento la 4890 e la 285 gtx) Test: Grafikkarten 2009 (Seite 18) - 31.12.2009 - ComputerBase Con path dx10.1 e deferred rendering (stalker, UE3, ecc) i chip ATi con MSAA 4x guadagnano un 20-25% (e si posizionano abbondantemente davanti a quelli nVIDIA). In più, le prestazioni in DP di ATi sono nettamente superiori a quelle di GT200 (g80 non fa calcoli in DP). Sinceramente questa netta superiorità (ripeto, con un chip grande quasi il doppio) faccio fatica a vederla. in questi anni, a parte i fasti iniziali, ho visto, invece, nVIDIA sempre ad inseguire, non sul piano delle prestazioni (ma deve ringraziare soprattutto chi non ha fatto uso di path dx10.1) quanto su quello dei pp e delle architetture. Non è riuscita a tirare fuori una linea di fascia media e bassa da gt200 sia a 55 che a 65 nm. Ha effettuato continui rebranding e renaming degli stessi chip e sta continuando con la stessa pratica (i chip della serie 3x0 usciti finora sono rebranding di G8x). A chi sostiene che non lo ha fatto per scelta, perchè era sufficiente g80, si può tranquillamente rispondere che è una scelta che si paga cara perchè la produzione di 280, 260, 285 e 275, ha dato luogo a scarti che sono costati (quanto i chip di fascia alta) ma non sono mai stati commercializzati. Infine, tra i Q2 e il Q3 2009 (quando ancora non era in commercio la serie 5x00 si ATi), nVIDIA ha perso oltre un 7% di market share a vantaggio di AMD e di Intel. Al momento non c'è una vga con chip nVIDIA che sia competitiva, in nessuna fascia di mercato, per prezzo o prestazioni quella di R600 si è rivelata molto longeva, al contrario di quella di g80; questo ha permesso ad ATi di ridurre drasticamente le spese di ricerca e sviluppo visto che ha solo dovuto lavorare sui nuovi pp da adottare e molto poco sull'architetutra del chip. Inoltre, proprio grazie a questa maggiore flessibilità, ha potuto adottare più velocemente le nuove librerie grafiche e i nuovi pp. Per la cronaca, la divisione chip grafici di AMD è in attivo. vero; comunque le versioni tesla presentate, in dp sono di poco più veloci di rv870. E nVIDIA fa molto bene a spingere sul gpgpu perchè se non riesca a spostare l'interesse verso il gp computing su gpu, tra i SoC di AMD e il progetto terascale di Intel rischia di trovarsi a mal partito, considerato che una gpu non potrà mai sosittuire una cpu gp senza snaturarsi
-
invece no; ATi sta capitalizzando ora quello che ha investito col progetto R600 di cui rv770 ed rv870 sono figli. La differenza sta nel fatto che nVIDIA ha dovuto già rimaneggiare due volte il progetto G80 (con G9x in misura minima e, soprattutto, con gt200); adesso con fermi è stata costretta a progettare una nuova architettura, mentre ATi, da R600 in poi, ha introdotto di volta in volta delle piccole varianti che le hanno consetito di essere ugualmente competitiva. I chip ATi costano molto meno sia a livello di sviluppo che di produzxione rispetto a quelli della controparte. E il vantaggio principale lo ha acquisito proprio grazie alla facilità di adattamento dell'architettura ai nuovi pp ed ai cambi di API. Vantaggio come pp adottati (ATi ha avuto tutto il tempo di collaudare i 40 nm e nVIDIA no) e vantaggi economici (chip con rese più elevate con unità ridondanti e capacità di coprire di volta in volta tutte le fasce). Per continuare a mantenere questo vantaggio, anzi per incrementarlo, deve continuare a correre. Il discorso è elementare: passando a 28 nm quando nVIDIA sta ancora combattendo con i 40 nm, ATi avrà la possibilità di realizzare chip piccoli, economici e più veloci di quello che la cotroparte può mettere in campo indipendentemente dagli sforzi che possa fare. Quindi, prima passa a 28 nm, prima consolida questo vantaggio. Chi è in vantaggio non dorme sugli allori; sviluppare una nuova architettura richiede tempo e molti soldi (motivo per cui più è longeva meglio è e in questo la scelta di ATi, finora, è stata vincente). grazie il prossimo step previsto è 28 nm SOI e high-k per GF e, in toeria, 32 nm bulk e 28 nm SOI e high-k per tsmc. I 32 sono uno shrink ottico dei 40 (ma credo che saranno saltati a piè pari, considerati i problemi incontrati con i 40 nm). L'affinamento dei 40 nm e l'adozione del nuovo pp sono due cose che procedono di pari passo ed è molto probabile che i 28 nm sarà il prossimo step anche per le cpu.
-
si tratta solo di affinare il pp attuale e di migliorare le rese; una volta ottenuto ciò, una nuova revisione del chip con frequenze più elevate o un maggior numero di SP attivi (o entrambe le cose) arriva a costo zero.
-
adesso mi occupo di tecnologie del silicio (e non solo). Ovvero cerco nuove soluzioni ed, eventualmente, nuovi materiali e tecnologie per i futuri chip.
-
le tesla hanno tmu e rop's disabilitate; quindi svariati milioni di trasistor in meno da foraggiare. In più, se alzi le frequenze la potenza assorbita schizza alle stelle. Non credo ceh sulle tesla li abbinao disattivati: sarebbe stato meglio abbassare le frequenze ed avere più SP attivi ai fini del bilancio energetico. al momento proprio per quanto detto sul bilancio energetico, non credo abbiano in mano sample con 512 alu funzionanti. L'ipotesi più plausibile è quella delle 448. Questo significa che per avere le prestazioni devono alzare le frequenze e forse aumentare la tensione di alimentazione (questo spiegherebbe le temperature, il waterblock e il crash nella demo mostrata (sistema instabile). In quest'ottica, l'potesi più probbaile è un'uscita di un chip a 448 non appena avranno trovato un compromesso tra bilancio energetico, stabilità e prestazioni e di uno a 512 alu non appena il pp di tsmc gli permetterà di averne a disposizione. Tenendo conto che questi utlimi si conteranno col contagocce. sicuramente qualcosa stano facendo, anche perchè è opportuno che esca qualcosa il più presto possibile
-
non sempre le scelte sono propriamente "libere". Nel periodo intercorso tra G80 e fermi, nVIDIA non ha dormito; semplicemente non poteva fare diversamente da quello che ha fatto. L'architettura di G80 non si presta ad un passaggio indolore alle DX10.1 e alle DX11 perchè troppo poco flessibile (il difetto tipico delle architetture "hard-mode"). Nel passaggio a gt200 è stato rivisto il rapporto alu/tmu (passato da 2:1 a 3:1) ed è stata introdotta la fp64 con alu dedicate. Ma anche gt200 non è un chip orientato più di tanto al gpgpu. Nonostante tutto, nVIDIA ha cercato di spingere sul gp computing per tentare di trovare uno sbocco in una situazione in cui Intel sta portando avanti il progetto terascale computing di cui larrabee fa parte, AMD è l'unica, al momento, in grado di avere un SoC con CPU e GPU di alto livello. Quindi se nVIDIA non riesce a creare un motivo di interesse che vada oltre la grafica 3D epr i suoi chip, rischia di veder ridimensionato il suo core business principale. Questo l'ha spinta a portare avanti il progetto fermi, che dovrebbe essere il primo passo verso il vero gp computing e che rappresenta il tentativo di spostare l'attenzione verso la capacità di calcolo delle gpu nell'esecuzione di applicazioni di tipo GP. Il rinvio di larrabee non era previsto al momento in cui è stato messo in cantiere fermi e neppure nVIDIA era al corrente di quando sarebbero usciti i multicore asimmetrici AMD. In quest'ottica, fermi è una necessità ed è necessario che esca al più presto; paradossalmente, l'attenzione si è spostata verso le prestazioni 3d anche se per nVIDIA questo rpogetto è più importante nel versante gpgpu. Per quanto riguarda ATi, sicuramente si farà qualcosa di analogo a quanto visto con la 4770 prima del cambio di architettura. sicuramente farà esperienza con un chip mainstream prima e forse con uno high end poi. La 5890 non credo uscirà a 28 nm e lo sviluppo di un chip a 28 nm non influirà sull'uscita di refresh delle attuali gpu. ATi ha un netto vantaggio temporale ma deve spingere sull'cceleratore se vuole mettere all'angolo nVIDIA senza darle la possibilità di riprendersi.
-
grafica e silicio