AMD Radeon HD 7000系列,是AMD的图形处理器系列产品,研发代号为Southern Islands(翻译为南方群岛),采用28奈米制程,由台积电代工。本系列第一款产品为Radeon HD 7970,于2012年1月16日发布。全系列显示核心采用“次世代图形核心”(Graphics Core Next)架构,针对通用计算而优化。流处理器由4-Ways VLIW SIMD架构(俗称4D架构)改良,亦提升了曲面细分性能。透过ZeroCore Power技术,显示核心待机的时候,功耗小于3W。另外,Radeon HD 7000支持PCI-Express 3.0总线和Direct X 11.1。
Radeon HD 7000系列的主要竞争对手为NVIDIA的GeForce 600系列,两者同样使用台积电的28nm制程制造。HD 8000只是HD 7000的更名版本,仅供OEM。HD 7000的真正后继者是代号Volcanic Islands(火山岛)的Radeon Rx 200系列。
2013年,AMD时更换了全线产品的标志,包括中央处理器和图像处理器,力图更新Radeon及其他产品的品牌形象。官方网站的产品介绍都改用了新标志,但零售产品依然是印着旧的Radeon标志。
从“Southern Islands”南方群岛系列开始,超微开始使用新一代名为“Graphics Core Next”(次世代显示核心,GCN)的显示核心架构,主要为加强图形核心的通用计算能力而特别设计。这种设计概念类似于英特尔已经取消的Larrabee项目,但不同的是AMD的项目仍然会重视传统的图形处理能力。
对比图形引擎,流处理器的改动相对比较大。
以往的5-Ways VLIW SIMD或4-Ways VLIW SIMD(俗称5D/4D架构)架构流处理器是针对指令而优化的:自R600显示核心以来,AMD/ATI显示核心的流处理单元上是由一个指令发射端+五个“流处理器”(四个矢量运算单元+一个超标量运算单元,后期变更为仅有四个矢量单元),理论上,透过将几个短指令组合为一个长的指令,使每个流处理单元可同一时间处理一个5D/4D指令,达到大数据吞吐量的目的。但这样做的缺点也很明显:需要依赖指令的恰当组合,而且在指令组合时会出现延时。实际上运行时指令组合往往并非最佳组合,造成有部分流处理器处于闲置状态,致使运行效率不高,而造成超微显示核心一直以来给人“理论参数高,实际性能低”的印象。。所以AMD放弃以往的VLIW架构,改用称为GCN的新架构。
而新的GCN架构是针对线程而优化,尽管仍然保留SIMD的设计。GCN架构中,为强化通用处理能力,超微开始引入类似于对手英伟达的“流多处理器”、“GPC”等概念。在GCN架构的显示核心上,划分为多个计算单元(Compute Unit,CU,前称“GCN数组”),每个CU单元里包含指令获取/仲裁单元(Instruction Fetch Arbitration)、控制/解码单元(Control and Decode)、独享的一级指令/数据缓冲存储器、65个ALU:一个标量运算单元(Scalar Unit)以及64个向量运算单元(Vector Unit,即流处理器),这64个矢量运算单元中,每16个矢量运算单元组成一个16位的SIMD数组并独享64KB的寄存器,这样一来,一个CU单元就拥有4组SIMD矢量数组。在运行运算任务时,所有数据都会被拆散为1D数据,每个SIMD矢量数组运行一条线程,由此一组CU单元可运行四条硬件线程,一个GCN架构的显示核心中包含多个CU单元,因此整个GCN显示核心可以同时运行多个任务/进程,以一组SIMD数组为一个运算单元的角度看,一个CU单元具备MIMD的特性。超微官方的数据指出,这是一种“基于SIMD数组的MIMD架构”(“Southern Islands is a MIMD architecture with a SIMD array”)。
这样做的话,只要一直有数据输入显示核心,就不会有流处理器闲置。这与NVIDIA的处理方式相似,将所有数据都分解为1D数据。效率的提升,可以弥补额外配套而增加的线路。在某些特定情况,线程可以乱序执行,减少线程之间互相影响。
核心配备两个几何引擎。每一个几何引擎包含曲面细分单元、几何装配器、顶点装配器各一个,还有可用于卷积运算、傅里叶变换等特殊运算任务以及材质贴图处理的材质数组。单从数量而言,光栅器和曲面细分单元依然比不上对手NVIDIA。AMD特别针对相关单元的运行效率,声称Radeon HD 7970的曲面细分性能最高是上一代Radeon HD 6970的4倍,即使平均下来也有两倍的性能提升水准。
新增一级和二级线程调度机制。为此,核心额外新增了一到两个Asynchronous Compute Engine(异步运算引擎,ACE),用作CU单元(包括其内部)/流处理器的任务分配和仲裁,增强显示核心的乱序执行能力(显示核心本质上依然是顺序执行),提高几何和通用计算的性能。
GCN架构中,为保证数据快速访问,寄存器数量惊人。在一个CU单元中,每一组SIMD矢量数组拥有各自的寄存器,容量为每组64KB,一个标量单元独占4KB的寄存器,这样一来一个CU单元里共有5个独立的寄存器。而对手NVIDIA的Kepler架构的GeForce 600中,每个SMX单元(相当于一个CU单元)仅有1个全局寄存器,即使是早期Fermi架构的GeForce 400上,每组SM单元也是仅有一个全局寄存器。但是,过多的寄存器会使得显示核心过于庞大,在出于成本考量时还会挤压运算单元的晶体管使用量,而且还不利于功耗发热控制以及时脉的提升,Tahiti XT顶级显示核心就拥有约43.13亿个晶体管。有评论指出如此庞大的寄存器数量,显示出Radeon HD显示核心寄存器的使用算法不佳。
以往的缓冲存储器只支持读取模式。新的缓冲存储器,可支持读写模式,方便交换数据。每一个CU单元拥有64KB的一级缓存,被划分为一个32KB的一级只读指令缓存、一个16KB的一级只读数据缓存和一个16KB一级可读写数据缓存,全部是连通的,而且可供其它CU单元访问,以保证数据同步和共享。而且,这种设计更多的似乎是为了日后CPU+GPU协同运算着想。
显示核心配备每通道容量为64KB到128KB的可读写二级缓存,与各CU的一级缓存之间以及与图形引擎之间以64位通道连接,以支持它们之间的数据发送以及同步。二级缓存的通道数还与显示存储器控制器数量相对应,比如,Radeon HD 7970拥有6个64位的GDDR5存储器控制器,每个控制器拥有一个通道的二级缓存对应,即7970的二级缓存容量为386KB~758KB。支持X86虚拟内存技术,可将显示存储器中的一部分容量映射到系统存储器上,供中央处理器访问,以解决纹理生成速率樽颈。
顶级型号Radeon HD 7970拥有6个64位的GDDR5存储器控制器,合组384位,拥有3GB的显示存储器容量。系统接口支持PCI-E 3.0总线。
硬件支持Direct X 11.1所有特性,支持OpenGL 4.3。增加Partially Resident Textures(局部存储纹理)特性。支持光栅作业与Z缓冲单元继续独立运作、所有纹理作业支持缓存读写作业等。
新增Discrete Digital Multi-Point Audio(DDM Audio)。以往的显示核心只支持一个音频数据流输出。Radeon HD 7000则支持多个。如果显卡接驳三个集成扬声器的显示器,以往只可以一个发声,现在则是三个皆可有声效输出。另外,每个显示器的音效,都是基于该显示器显示中的影像。
Eyefinity 2.0(宽域技术):
需要一个支持120Hz刷新率的显示设备,配合DisplayPort或者HDMI 1.4a输出。
新增ZeroCore技术,可使显示核心闲置时进入深度休眠状态,将功耗降至小于3瓦。在Radeon HD 7970 GHz Edition(使用Tahiti XT2核心)上还新增Boost特性,使显示核心能自动超频或在拷机测试时使核心频率和电压降至安全值,最大值为1125MHz,Radeon HD 7990推出以后,最低值更低至500MHz。Radeon HD 7790推出时还对电源级别进行了改进,在显示核心使用中可根据负载需要进行更细腻的电源和时脉调整。但与对手NVIDIA的GPU Boost相比,此技术仍略显粗糙。
28奈米新架构的AMD Radeon HD 7000系列被划分为三个级别:用于Radeon HD 7900系列的“Tahiti”顶级显示核心、Radeon HD 7800系列性能级的“Pitcairn”以及Radeon HD 7700系列主流级的“Cape Verde”。以完整的芯片来看,性能级的显示核心(拥有20组CU)大约拥有旗舰级(拥有32组CU)的一半,或两倍于主流级(拥有10组CU)的流处理器数量,相对应的是单精度浮点运算和双精度浮点运算的性能也是如此。消费级产品的旗舰型号Radeon HD 7900系列的双精度浮点运算的速率大约为单精度浮点运算的四分之一,而性能级的Radeon HD 7800系列和主流级的Radeon HD 7700系列则是十六分之一。每个更大的芯片上有两个额外的存储器控制器可扩展128位的总线带宽,实际性能测试中,“Pitcairn”核心拥有和“Tahiti”核心一样的一对前端曲面细分单元,使得两者的重度DirectX 11曲面细分性能得分相近。
首款使用GCN核心,开发代号为“Tahiti”的Radeon HD 7900系列,于2011年12月22日发布。产品系列包括:Radeon HD 7970 GHz Edition、Radeon HD 7970以及Radeon HD 7950。首发显卡Radeon HD 7970(核心代号“Tahiti XT”)拥有32组CU共2048个流处理器,核心时脉925MHz;接着的Radeon HD 7950在7970的基础上削减有瑕疵的4组CU共256个流处理器,拥有28组CU共1792个流处理器,核心代号“Tahiti Pro”,核心时脉800MHz。
后来2012年5月发布的Radeon HD 7970 GHz Edition是采用基于小幅改良过的“Tahiti XT2”,新增Boost动态时脉调节,核心时脉最高可达1050MHz。这三者的公版显卡均配备3GB的GDDR5显示存储器,核心使用台积电的28奈米 HKMG制程来制造。
发烧级的Radeon HD 7990,最初的核心代号是“New Zealand”,采用两颗“Tahiti XT”核心。后来因功耗限制,先是改由合作厂商利用“Tahiti XT2”显示核心组成“7970 ×2”形式并冠名“7990”的名义推出非公版的“Radeon HD 7990”。实际上超微已经于2012年第四季度推出过采用两颗削减过硬件规格“Tahiti”核心的FirePro S10000专业绘图卡,但直到2013年4月,超微才发布消费级领域的Radeon HD 7990,开发代号“Malta”,采用两颗“Tahiti XT2”显示核心,核心最高时脉1GHz,采用6GB的GDDR5显示存储器,最大热设计功耗控制在375瓦。
开发代号为“Pitcairn”的Radeon HD 7800系列于2012年3月5日正式发布,2012年3月29日正式进入零售市场。这一系列包括Radeon HD 7870 GHz Edition以及Radeon HD 7850。Radeon HD 7870采用“Pitcairn XT”显示核心,拥有20组CU共1280个流处理器,核心时脉1000MHz;Radeon HD 7850则使用“Pitcairn Pro”显示核心,拥有16组CU共1024个流处理器,核心时脉860MHz。这两款公版显卡使用2GB的GDDR5显示存储器,芯片也是由台积电的28奈米制程生产。
2013年,新增Radeon HD 7870 XT(原来是Radeon HD 7890)一员,使用的是“Tahiti”最低端的“Tahiti LE”显示核心,拥有24组CU共1536个流处理器,但和“Tahiti XT2”一样拥有动态调频,最高时脉为970MHz,但仍然是使用2GB的GDDR5显示存储器,而且是以非公版型号推出市场。
开发代号为“Cape Verde”的Radeon HD 7700系列于2012年2月15日发布。产品系列有Radeon HD 7770 GHz Edition和Radeon HD 7750。Radeon HD 7770 GHz Edition采用“Cape Verde XT”显示核心拥有10组CU共640个流处理器,核心时脉1000MHz;Radeon HD 7750采用规格削减的“Cape Verde Pro”拥有8组CU共512个流处理器,核心时脉800MHz。同样两款公版显卡配备1GB的GDDR5显示存储器,芯片也是由台积电的28奈米制程制造。
2013年3月22日,新增Radeon HD 7790,采用基于GCN小幅改良版本GCN 1.1的“Bonaire XT”显示核心,性能高于Radeon HD 7770而弱于Radeon HD 7850。超微也准备推出基于GCN架构的新入门级产品Radeon HD 7730,尽管是入门级产品,但根据工程样品的性能测试表明其仍然拥有两倍于Radeon HD 6670的性能表现。
目前除了内置于下一代低功耗AMD APU的Radeon HD 7420G以外,其它型号均外上一代产品的更名版本。
以下是使用新架构的显示核心