Analisi tecnica dei nuovi
chips grafici NVIDIA

Clicca per vedere l'immagine in tutti
i suoi dettagli
Le 16 pipeline
programmabili che elaborano le informazioni dei pixel sono
divise in due stadi: 16 unità di pixel shading, primo
stadio (A), e 16 unità Rop (Raster Operation per pixel),
secondo stadio (B), divise da un fragment crossbar buffer.
All’interno dello stadio A troviamo il primo esempio
dell’architettura superscalare dell’NV40: a fianco
dell’elemento per l’elaborazione delle texture
sono presenti due unità di shading, contro la singola
dell’architettura tradizionale. La prima unità
può lavorare in due modi: eseguire quattro operazioni
per pixel per ciclo di clock, oppure elaborare una texture
per pixel a piena velocità. La seconda può lavorare
solo eseguendo operazioni sui pixel, anche in questo caso
quattro per ciclo di clock. Le due unità di calcolo
operano in piena velocità con dati in virgola mobile
a 32 bit; questo permette di ottenere una maggiore precisione
nella generazione dei pixel; rimane comunque possibile utilizzare
dati in virgola mobile a 16 bit (FP16), ma l’incremento
di prestazioni non è sensibile come con i chip di generazione
precedente. Combinando i due modi operativi lo stadio A può
elaborare una texture e svolgere 4 operazioni per pixel, oppure,
se non si applicano effetti di texture, elaborare 8 operazioni
per pixel per ciclo di clock. Anche in questo caso il supporto
alla versione 3.0 degli shader permette di eseguire fino a
65.535 istruzioni per pixel e introduce il supporto al controllo
dinamico del flusso di istruzioni con la gestione delle diramazioni
del codice e con la possibilità di effettuare chiamate
a subroutine e il ritorno al punto di salto.
L’intero complesso degli stadi A delle 16 pipeline è
un’architettura di tipo Simd (Single Instruction Multiple
Data), ovvero in grado di eseguire lo stesso codice su dati
differenti. Come per le unità di vertex shading sono
supportate le modalità co-issue e dual-issue per l’esecuzione
delle istruzioni.
Gli stadi B provvedono all’esecuzione di algoritmi deputati
alla raffinazione dell’immagine finale. Ciascun elemento
delle 16 pipeline contiene diverse unità di elaborazione:
una multisample AA, che provvede all’esecuzione degli
algoritmi di antialiasing raggruppati sotto la tecnologia
Intellisample 3.0, e una struttura superscalare composta da
due unità di compressione in tempo reale e due per
l’elaborazione dei parametri Z e di colore (fare riferimento
allo schema logico del chip). Il primo dei due rami opera
in modo unico sui valori Z dei pixel, mentre il secondo può
operare alternativamente sui valori di colore o su quelli
Z. Nel complesso le 16 unità Rop sono in grado di produrre
16 pixel per ciclo di clock lavorando sulla coordinata Z e
sui valori di colore, oppure 32 pixel per ciclo di clock quando
operano solo sulle coordinate Z. A questo livello interviene
anche la tecnologia di accelerazione delle ombre, denominata
UltraShadow II.