推土机微架构

✍ dations ◷ 2025-12-02 02:18:07 #推土机微架构

推土机微架构(英语:AMD Bulldozer)是AMD继K10微架构之后推出的中央处理器微架构,由 IBM Power4 的总工程师 Chuck Moore 操刀。该微架构主要应用于桌面型平台、服务器平台乃至超级计算机的微处理器核心上。Bulldozer在历经数次跳票后于2011年9月19日发布,其首发产品是核心代号为“Zambezi”的AMD FX。

Bulldozer微架构从一个早期已搁置的微架构设计发展而来,主攻热设计功耗为10瓦至125瓦的处理器平台。AMD预期认为,基于Bulldozer架构的处理器在实际应用中每个“推土机”(Bulldozer)核心每瓦性能可达到高性能计算(High-performance computing,HPC)的水准。届时每个“推土机”核心会支持Intel绝大部分的指令集(包括SSE4.1、SSE4.2、AES、CLMUL以及AVX),以及AMD自有的指令集(包括由SSE5拆分而来的XOP、FMA4、CVT16)。

2011年,AMD处理器开始导入32纳米制程,推出APU(加速处理单元)新形态处理器,应用在台式机与笔记本电脑。超微的处理器架构有两大关键的调整方向,依用途区分成两种系列,其研发技术代号分别为Bulldozer与Bobcat。Bulldozer架构针对主流服务器、台式机、笔记本电脑的应用,提供高访问性能与高负载多线程的架构,并选择以APU配置的高延展性来链接图形处理器;Bobcat主攻低耗电的超轻薄电脑应用。

Bulldozer架构的处理器均使用格罗方德的32纳米HKMG SOI制程,重新使用类似DEC的多任务计算的设计。根据AMD的发布说明,“平衡专用和共享的处理器运算资源,来提供一个易于成倍提升计算性能的,高度紧凑的单片机多核心的设计”。换句话说,透过精简处理器核心一些“冗余”部分,辅以多核心/多线程的设计,超微希望籍此以更少的能耗,来充分发挥这些核心的特性和性能来提升整块微处理器乃至整个平台的性能。AMD研究员Tim Fischer表示,Bulldozer采用全新的控制结构和运算单元,其性能体现于整数运算、浮点运算、L1缓存、电源管理,和时脉产生器等……均是开发重点,主要意义在于降低功耗并提升单位功耗的性能。

Bulldozer微架构的设计早在2003年已出现,由于AMD忙于K8微架构处理器的研发和推出而搁置,后来Bulldozer架构在该微架构的基础上重新设计。可合并为1个256位的2个128位并且可进行融合乘法运算的浮点运算单元,这个主要特性在2003年的设计中已出现;一个Bulldozer核心单元中,除了前述的浮点运算单元外,还拥有两个整数调度运算单元,每个整数调度运算单元各自拥有4条流水线(另外的读取、解码这两级流水线为两个整数运算单元所共享);L1缓存为每整数调度运算单元独占,但L2缓存则为两个整数调度运算单元所共享。AMD称这样的一个单元为一个“模块”,一个16线程的Bulldozer处理器中包含8个这样的模块,但一个模块并不会被辨认为一个物理核心,而是根据一个模块中的2个整数调度运算单元的数量辨认为两个逻辑核心(即操作系统会将1个模块辨认为两个逻辑核心/线程)。一个“模块”包含2个逻辑核心,和Intel的超线程技术中1个物理核心被辨认为2个逻辑核心的做法似乎有类似之处,但事实上,两者大相径庭:AMD Bulldozer的“模块”为每条线程提供了各自的整数运算调度单元和一级指令缓存,而英特尔的超线程则是两条线程共享核心内所有可用的运算资源。

基于Bulldozer微架构,32纳米SOI HKMG制程的处理器产品于2011年9月率先于桌面型平台上发布,是为核心代号“Zambezi”(Socket AM3+,4至8线程)之AMD FX系列;紧接着的是10月12日发布服务器平台,核心代号“Interlagos”(Socket G34,16线程)、“Valencia”(Socket C32,4至8线程)之AMD Opteron系列重新激活了AMD少有的“FX”品牌。首发的桌面级产品FX-8150,将有四个Bulldozer模块;服务器级微处理器,代号Interlagos,是由两个包含4个Bulldozer模块的MCM、共八个Bulldozer模块所构成。

基于Bulldozer微架构的桌面型平台处理器为AMD FX,于2011年9月19日正式上市。使用GlobalFoundries 32nm SOI工艺,支持Turbo Core 2.0、Cool'n'Quiet、HyperTransport 3.1等技术。使用新的Socket AM3+(942)插座,支持DDR3-1866双通道内存,分为8核、6核、4核三种版本,主频从2.8GHz~4.2GHz不等。配套芯片组为AMD 900系列芯片组。

Bulldozer与Fusion APU“Llano”两个系列处理器的上市时间定案,分别是2011年9月19日跟2012年第一季。最初有4个Bulldozer处理器在2011年9月19日发布,分别是:四核心FX-4100、六核心FX-6100、八核心FX-8150、FX-8120。三核心型号(1.5个模块,微软KB2592546补丁的定义为“1.5核心”)只供OEM市场。

2011年11月14日,AMD宣布推出针对服务器等级性能的Opteron 6200与4200系列处理器(先前代号分别为:Interlagos与Valencia),主要将提供其扩展性,并且提供高出73%的存储器带宽,以对应更高阶的虚拟化技术应用,同时在整体耗电量部分也让每组核心减少原有一半,同时也让主机使用空间减少三分之二,进而节省更多电力、空间等成本支出。

AMD也同步透露2012年将加入全新AMD Opteron 3000服务器平台,主要锁定超高密度、超低功耗的1路网络主机托管(Web Hosting)、网络服务器(Web Serving),以及微型服务器(Microserver)等应用领域。其中将会先推出代号为“Zurich”的4至8核心架构的处理器系列,同样采用推土机(Bulldozer)架构且对应AM3+插槽,并且预计将于2012上半年间出货。

首款基于Bulldozer微架构的消费级处理器AMD FX上市后,在微架构的设计上、性能上和能耗上饱受争议。首发的顶级型号FX-8150,在倚重单线程的基准性能测试中,测试结果显示FX-8150不仅落后于基于Nehalem、Sandy Bridge等微架构的Intel Core i系列,还不如基于K10微架构的AMD Phenom II系列;不过在倚重多线程的性能测试中,结果显示勉强可以追平Phenom II X6 1100T和Intel Core i7-2600K。纵观各媒体的性能测试结果,FX-8150综合性能强于Intel Core i5 2500K,而零售价格则在其之下,这个结果并没给市场预期留下好印象。在性能测试中,FX-8150在厂方默认时钟频率下运作,无论待机抑或满负荷运作,能耗比与Intel基于SandyBridge的处理器不相上下,但是进行较大幅度的超频后,FX-8150尽管性能提升明显但处理器会变得极其耗电,能耗比变得相当低下。

Tom's Hardware的网站评论认为,这种在多线程负载下仍然不如预期的性能表现,是由于目前Windows 7的线程和处理器核心一一对应的线程调度方式。他们指出,如果Windows首先把一条线程分配给一个Bulldozer模块,并在模块内分为两条子线程以充分利用该模块内的整数调度运算单元,这将会性能最大化地使处理器同时处理四条线程。这种线程调度方式和带有超线程的Intel微处理器的类似——Windows 7会在利用逻辑核心(超线程得到的)前把线程安排至物理核心上。

对于处理器在超频状态时夸张的功耗水平,业界相信由于格罗方德的32纳米SOI HKMG制程仍旧不成熟,这个导致了处理器核心在更高时脉下运作时,漏电现象严重,使耗电量飙升以及核心发热量大增。而且有性能测评指出,AMD为压低FX系列的功耗,有意压低部分型号处理器的最高工作温度,而这个温度的设置值,实际还低于处理器在默认时钟频率下满负荷运作时的最高温度,这样一来在处理器过热保护机制下,性能受到了不小的影响,从而使处理器性能不如预期。

而AMD FX的较低端的型号中,FX-4100系列与Intel Core i3系列之间的比较以及FX-6100系列与Intel Core i5系列(Core i5 2500K除外)之间的比较中,除了某些倚重单线程的应用程序和基准性能测试项目以外,其余的差距不大。不过功耗方面仍然有些偏高,尤其是超频以后功耗仍然大幅增加。

2011年10月13日,AMD在其官方博客中回应了AMD FX系列处理器的性能、功耗表现不如市场预期的问题,除了指出由于微架构不同于以往的x86处理器的微架构,现行的应用程序以及基准性能测试程序没有对Bulldozer微架构的特点进行充分优化,以至性能不如预期以外,也承认FX-8150性能不济的事实:不少性能测试成绩不如Intel的Core i7-2600K/2700K,甚至比不过AMD上一代的消费级顶级产品Phenom II X6 1100T。AMD同时表示,在2012年以后的发展规划中,将提升Bulldozer微架构的性能,并降低功耗,目标是每一瓦电功率的性能提升10%至15%。格罗方德也表示继续改进其32纳米SOI HKMG制程。根据目前一些基于AMD Piledriver微架构的AMD Fusion(核心代号“Trinity”)的工程样品的性能测试,结果显示和AMD的预期性能一致。

AMD于2011超级电脑展(Supercomputing 2011)上,宣布基于Bulldozer微架构的新款AMD Opteron 6200系列处理器已被HPCwire杂志的编辑与读者评选为2012年最受瞩目的五款新产品之一,并被美国国家科学基金会(National Science Foundation)的Blue Waters项目采用,将在伊利诺伊州的国家超级电脑应用中心(NCSA)建置此部超级电脑。

超过235部,搭载近5万颗AMD Opteron 6200系列处理器的Cray XE6机柜,使Blue Waters超级电脑能提供超过每秒千兆次(petaflop)的充裕性能,在各种现象研究上的获得突破性进展,包括:宇宙大爆炸(Big Bang)之后的演进、龙卷风的形成、病毒侵入细胞的机制,与其他众多科学工程方面的应用。

2012年12月,搭载18,688颗8模块16核心的AMD Opteron 6274为任务分配单元,18,688颗NVIDIA Tesla运算加速卡(GK110通用图形处理器)的泰坦超级电脑以17.59petaFLOPS的记录荣登TOP500第一名,Green500(超级电脑性能功耗比前500强)第三名。

2011年12月16日,微软发布了KB2592546,即传说中的推土机线程调度补丁。而当天上午微软就已经撤下了补丁,对于这一点BSN网站联系了微软和AMD,得到了AMD方面的官方回应:

AMD称自己也不相信用户能从单独第一部分的补丁中得到好处,原本的补丁发布计划是在2012年第一季度时才能看到推土机在Win7/Server 2008 R2优化后的性能表现。

微软在KB2592546之后,针对以Win7、Windows Server 2008 R2的电脑为基础,进行优化。目前,AMD推土机处理器比预期的慢。因为在该两种操作系统的线程逻辑,只对同步多线程(Simultaneous Multithreading, SMT)的调度特色进行优化,而没对集群多线程(CMT,Clustered Multithreading)一类的多线程设计的处理器进行特别优化,来让性能最有效地运行。

后来完整版的补丁(KB2646060以及KB2645594更新档)发布,不少性能测试结果显示这些性能优化补丁效用有限,无论是服务器平台还是桌面平台,最多仅在某些项目上有15%的性能增长。

2012.09.21 AMD的驱动程序已有内置修补无需安装微软的修正程序

AMD全球副总裁暨终端产品事业群总经理Chris Cloran表示,等级最高的FX-8150八核心处理器,在2011年8月31日,由AMD团队超频达到8.429GHz,超越同厂处理器先前的被“Team AMD FX”缔造的8.308 GHz成绩,荣登吉尼斯世界纪录“最高时脉的电脑处理器”。

AMD在2011年发布2012年的财政预算以及2012年的产品路线图时宣布,在2012年的第三季度发布Bulldozer微架构的改进版Piledriver。首批基于Piledriver的处理器是核心代号“Trinity”的AMD A系列处理器(APU)移动版本和桌面版本;新FX和Opteron在2012年9月发布。

(中文)

(英文)

相关

  • 高温超导高温超导(High-temperature superconductivity,High Tc)是一种物理现象,指一些具有较其他超导物质相对较高的临界温度的物质在液态氮的环境下产生的超导现象。高温超导体(High-te
  • 阮玉福祥宜春公主阮玉福祥(越南语:Nghi Xuân Công chúa Nguyễn Ngọc Phúc Tường/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HA
  • 遵义话遵义话(本地发音:,而李蓝近年通过对遵义话入声韵的考察,认为应该划入西蜀片岷赤小片。遵义话突出的音韵特点有:从以上特点可以推测更老派的遵义话和现在辖区内的赤水话以及东部毗
  • 冯亚荣冯亚荣(Cerezo Fung a Wing,1983年9月24日-),是一名足球运动员,司职后卫。他原籍苏里南,其父是中国人后代。他现时效力荷超球队迪加史卓普。
  • 智商与国民财富《智商与国民财富》() 是一本有争议的2002年出版的书,作者为北爱尔兰阿尔斯特大学心理学名誉教授理查德·林恩和芬兰坦佩雷坦佩雷大学政治学名誉教授塔图·弯汉恩。这本书认为,
  • 沙贾汉布尔县沙贾汉布尔县是印度的一个县,位于该国北部,由北方邦负责管辖,面积4,575平方公里,识字率为61.61%,2011年人口3,002,376,人口密度每平方公里656人。坐标:28°00′N 79°50′E / 28.00
  • 小公爵方特勒罗伊小公爵方特勒罗伊(英语:Little Lord Fauntleroy)是指1921年3月于美国威斯康星州沃科夏发现的一具身份不明男童遗体。1921年3月8日,在威斯康星州沃科夏的奥拉夫林石材公司附近的一个池塘里发现了一具漂浮着的男孩尸体。当局估计他的年龄在5到7岁之间。他有一头金发,棕色的眼睛,下颌少了一颗牙。他死于被钝器击中。这个男孩可能已经在水里好几个月了。他穿着一件灰色的毛衣、内衣、黑色的长袜、衬衫和皮鞋;衣服的质量表明这个孩子来自一个富裕的家庭。警方在当地殡仪馆展示了他的尸体,试图确认他的身份;但
  • 博让西战役博让西战役发生在1429年7月16与17日。这是圣女贞德所领导的战争之一。在解除奥尔良之围后不久,法军收复卢瓦尔河沿岸地区。博让西是位于法国中央地区,卢瓦尔河北岸的一个小城镇。它控制了一座在之后的战争具有重要战略性的桥梁。几年前英军占领此处作为侵入法国南部的战略中心,之后法军收复桥梁与城镇,提供之后北方战役重要的补给通道,并使法王查理七世能遵循传统在兰斯主教座堂加冕。卢瓦尔河战役中包含五场战役:事实上,1428年后,法国卢瓦尔河以北的地区几乎都被外国势力占领。奥尔良的桥梁也在包围解除前不久被摧毁。法军也失
  • OCSP装订OCSP装订(英语:OCSP Stapling),正式名称为TLS证书状态查询扩展,可代替在线证书状态协议(OCSP)来查询X.509证书的状态。服务器在TLS握手时发送事先缓存的OCSP响应,用户只需验证该响应的有效性而不用再向数字证书认证机构(CA)发送请求。OCSP装订解决了在线证书协议中的大多数问题。CA给网站颁发证书之后,网站的每个访问者都会进行OCSP查询。因此使用在线证书协议时,高并发的请求会给CA的服务器带来很大的压力。同时由于必须和CA建立连接,OCSP查询还会影响浏览器打开页面的速度并
  • 啡可指: