SSE

✍ dations ◷ 2025-10-12 11:07:15 #并发计算,X86架构

SSE(Streaming SIMD Extensions)是英特尔在AMD的3D Now!发布一年之后,在其计算机芯片Pentium III中引入的指令集,是继MMX的扩展指令集。SSE指令集提供了70条新指令。AMD后来在Athlon XP中加入了对这个新指令集的支持。

SSE加入新的8个128位寄存器(XMM0~XMM7)。而AMD发表的x86-64延伸架构(又称AMD64)再加入额外8个寄存器。除此之外还有一个新的32位的控制/状态寄存器(MXCSR)。不过只能在64位的模式下才能使用额外8个寄存器。

每个寄存器可以容纳4个32位单精度浮点数,或是2个64位双精度浮点数,或是4个32位整数,或是8个16位短整数,或是16个字符。整数运算能够使用正负号运算。而整数SIMD运算可能仍然要与8个64位MMX寄存器一起运行。

因为操作系统必须要在进程切换的时候保护这些128位的寄存器状态,除非操作系统去引导这些寄存器,否则默认值是不会去激活的。这表示操作系统必须要知道如何使用FXSAVE与FXRSTOR指令才能存储x87与SSE寄存器的状态。而在当时IA-32的主流操作系统很快的都加入了此功能。

由于SSE加入了浮点支持,SSE就比MMX更加常用。而SSE2加入了整数运算支持之后让SSE更加的有弹性,当MMX变成是多余的指令集,SSE指令集甚至可以与MMX并发运作,在某些时候可以提供额外的性能增进。

第一个支持SSE的CPU是Pentium III,在FPU与SSE之间共享运行支持。当编译出来的软件能够交叉的同时以FPU与SSE运作,Pentium III并无法在同一个周期中同时运行FPU与SSE。这个限制降低了指令管线的有效性,不过XMM寄存器能够让SIMD与标量浮点运算混合运行,而不会因为切换MMX/浮点模式而产生性能的折损。

SSE提供标量与包裹式(packed)浮点指令。

下面这个例子演示了使用SSE的优点。向量加法在计算机图形中很常用,如果在x86平台上想将四对单精度浮点数相加,必须使用四对浮点相加指令。

vec_res.x = v1.x + v2.x;vec_res.y = v1.y + v2.y;vec_res.z = v1.z + v2.z;vec_res.w = v1.w + v2.w;

上面这段代码会被编译成4条x86 FADD指令。下面的伪代码展示用128位包裹式相加(packed-add)指令替代4个纯量相加指令。

 movaps xmm0,           ;xmm0 = v1.w | v1.z | v1.y | v1.x  addps xmm0,            ;xmm0 = v1.w+v2.w | v1.z+v2.z | v1.y+v2.y | v1.x+v2.x                movaps , xmm0

后续版本

SSE2

SSE2是Intel在Pentium 4处理器的最初版本中引入的,但是AMD后来在Opteron和Athlon 64处理器中也加入了SSE2的支持。SSE2指令集添加了对64位双精度浮点数的支持,以及对整型数据的支持,也就是说这个指令集中所有的MMX指令都是多余的了,同时也避免了占用浮点数寄存器。这个指令集还增加了对CPU缓存的控制指令。AMD对它的扩展增加了8个XMM寄存器,但是需要切换到64位模式(x86-64/AMD64)才可以使用这些寄存器。Intel后来在其Intel 64架构中也增加了对x86-64的支持。

SSE3是Intel在Pentium 4处理器的Prescott核心中引入的第三代SIMD指令集,AMD在Athlon 64的第五个版本,Venice核心中也加入了SSE3的支持。这个指令集扩展的指令包含寄存器的局部位之间的运算,例如高位和低位之间的加减运算;浮点数到整数的转换,以及对超线程技术的支持。

SSSE3是Intel针对SSE3指令集的一次额外扩展,最早内置于Core 2 Duo处理器中。

SSE4是Intel在Penryn核心的Core 2 Duo与Core 2 Solo处理器时,新增的47条新多媒体指令集,现在SSE4版本更新至SSE4.2。

AMD也开发了属于自己的SSE4a多媒体指令集,并内置在Athlon II与Opteron等K10架构处理器中,不过SSE4a无法与Intel的SSE4系列指令集兼容。目前AMD新一代处理器已支持Intel的SSE4.1、SSE4.2指令集。

SSE5是AMD为了打破Intel垄断在处理器指令集的独霸地位所提出的,SSE5初期规划将加入超过100条新指令,其中最引人注目的就是三操作数指令(3-Operand Instructions)及熔合乘法累积(Fused Multiply Accumulate)。其中,三操作数指令让处理器可将一个数学或逻辑库,套用到操作数或输入数据。借由增加操作数的数量,一个x86指令能处理二至三笔数据,SSE5允许将多个简单指令汇整成一个指令,达到更有效率的指令处理模式。提升为三运算指令的运算能力,是少数RISC架构的水准。熔合乘法累积让允许创建新的指令,有效率地运行各种复杂的运算。熔合乘法累积可结合乘法与加法运算,透过单一指令运行多笔重复计算。透过简化代码,让系统能迅速运行绘图着色、快速照片着色、音场音效,以及复杂向量演算等性能密集的应用作业。目前AMD已放弃下一代Bulldozer核心内置SSE5指令集,改内置Intel授权SSE4系列指令集。

AVX(Advanced Vector Extensions)是Intel的SSE延伸架构,如IA16至IA32般的把寄存器XMM 128bit提升至YMM 256bit,以增加一倍的运算效率。

相关

  • 里士满县里奇蒙县(Richmond County, Georgia)是美国乔治亚州东北部的一个县,北邻南卡罗莱纳州。面积851平方公里。根据美国2000年人口普查,共有人口199,775人,2005年人口195,796人。1996
  • 技术就绪指数技术就绪指数(Technology Readiness Level,TRL)也称为技术备便水准,是一种衡量技术发展(包括材料、零件、设备等)成熟度的指标,为部分美国联邦政府的机构及国际性公司所使用,在应用
  • 病理切片活体组织切片(biopsy),从动物或人类身上取下少量活组织作病理学诊断的一种检查方法。活检对肿瘤的临床诊断有重要意义,不仅可以确定其组织分类,还可确定其良性或恶性,为治疗提供依
  • 李锐李锐(1768年12月8日-1817年6月30日),字尚之,江苏苏州人,清朝数学家。他独立地发现了一种笛卡儿符号法则的等价形式。李锐师从清代经学家、数学家阮元,并在1797年至1799年间参与了阮
  • 西方蜜蜂西方蜜蜂或欧洲蜜蜂(学名:Apis mellifera)是一种蜜蜂。其 Apis 是拉丁文的蜜蜂 (bee),种小名 mellifera 为“带有蜜糖”。卡尔·林奈(Carolus Linnaeus)后来发现蜜糖其实是蜜蜂制
  • 莫斯贝里590霰弹枪莫斯伯格500(英语:Mossberg 500)是一系列由美国枪械制造商O.F.莫斯伯格父子公司所研制及生产的泵动式霰弹枪,发射23⁄4英寸和3英寸12铅径霰弹、20铅径霰弹和.410 bore。莫斯伯格
  • 克马河 (沃洛格达州)坐标:60°19′57″N 37°12′07″E / 60.33250°N 37.20194°E / 60.33250; 37.20194克马河(俄语:Кема),是俄罗斯的河流,位于该国西北部沃洛格达州,流经维捷格拉区和瓦什金斯基
  • 尤蒂斯·冯·什文福尤蒂斯·冯·什文福(德语:Judith von Schweinfurt,1003年-1058年8月2日),波希米亚公爵夫人,出身德国什文福郡。尤蒂斯出身贵族家庭,早年在家族兴建的修道院度过。公元1019年波希米亚
  • 交互范式互动范式(Interaction Paradigm),是关于互动设计的一种特殊思维和方式。过去最主要的互动设计模式为发展应用软件于台式电脑使用,设计软件应用于GUI(图形使用者界面)或WIMP(视窗、
  • 安德鲁·博纳·劳安德鲁·博纳·劳(Andrew Bonar Law,1858年9月16日-1923年10月23日),加拿大裔英国保守党政治家,1922年至1923年出任英国首相,他是鲍里斯·约翰逊以外,唯一出生于英伦以外的英国首相