每秒浮点运算次数

✍ dations ◷ 2025-04-28 01:37:57 #电脑硬件,微处理器,计算,频率单位

每秒浮点运算次数(亦称每秒峰值速度)是每秒所运行的浮点运算次数(英语:Floating-point operations per second;缩写:FLOPS)的简称,被用来估算电脑性能,尤其是在使用到大量浮点运算的科学计算领域中。因为FLOPS后缀的那个S代表秒,而不是复数,所以不能够省略。在多数情况下,测算FLOPS比测算每秒指令数(IPS)要准确。

浮点运算实际上包括了所有涉及浮点数的运算,在某类应用软件中常常出现,比较整数运算更用时间。现今大部分的处理器中都有浮点运算器。因此每秒浮点运算次数所量测的实际上就是浮点运算器的运行速度。而最常用来测量每秒浮点运算次数的基准程序(benchmark)之一,是Linpack。

许多专家对每秒浮点运算次数颇多微词,认为它并不是一个有意义的量度,因为FLOPS并不能反应出许多对运行性能有影响的因素。例如:I/O的性能、存储器的架构、缓冲存储器一致性(cache coherence)。这意味着电脑的实际计算容量,与FLOPS的理论峰值间会有一段不小的差距。

随着新信息技术时代(数据挖掘、机器学习、深度学习、BIG DATA 大数据、各种人工神经网络和人工智能等)及工业革命 4.0 的发展,与 FLOPS 运算性能指针有关的计算设备以显卡 GPU 和 FPGA 为主要核心,但 FLOPS 指针却未能准确地反映出以上设备在相关领域运算的性能表现。皆因以上设备的架构是利用 CUDA、OpenCL 等编程语言来实现加速相关应用程序的运算速度(普遍达 20 倍甚至高达过千倍),而这些技术的实现依赖的更多是如 GPU 比 CPU 拥有更多倍数集成的核心,如一块 NVIDIA GeForce GTX-750Ti 处理器就拥有高达 500+ 多个 CUDA Core,其 GFLOPS 性能表现理想但 GFLOPS 并未实际对大数据运算作出很大的贡献,更多地是因为成百计以上的 CUDA 核心(每核心内置各自的 ALU 算术逻辑运算单元)能进行并发运算而产生的指数级别运算速度提升。

FLOPS在高性能计算机集群(超算)上可以使用这一公式得出:
FLOPS = racks × nodes rack × sockets node × cores socket × cycles second × FLOPs cycle {\displaystyle {\text{FLOPS}}={\text{racks}}\times {\frac {\text{nodes}}{\text{rack}}}\times {\frac {\text{sockets}}{\text{node}}}\times {\frac {\text{cores}}{\text{socket}}}\times {\frac {\text{cycles}}{\text{second}}}\times {\frac {\text{FLOPs}}{\text{cycle}}}} .
简化到计算机只拥有一块CPU的情况时,可以使用以下公式:

FLOPS = cores × cycles second × FLOPs cycle {\displaystyle {\text{FLOPS}}={\text{cores}}\times {\frac {\text{cycles}}{\text{second}}}\times {\frac {\text{FLOPs}}{\text{cycle}}}} .

以下列出几个有代表性硬件的每秒浮点运算次数

浮点性能参考指针 (xFLOPS) = 总运算核心数 x 每周期运算次数 x 处理器相对运作频率i.e.: 1,228.8 GFLOPS/1.2288 TFLOPS = 384 Core x 4 x 800 MHz(0.8 GHz)

1997年六月, 英特尔的 ASCI Red 是世界上第一台每秒浮点运算次数超过每秒一万亿次。 桑迪亚国家实验室主任Bill Camp说,ASCI Red和此前建造的超算相比拥有最高的可靠性,并且"是超级计算在寿命、价格和性能上的新水平"。

NEC 的 SX-9 超级计算机是世界上第一台 向量处理器 中每颗核心能达到超过100 亿次运算的机器。

作为比较,一台 电子计算器 只需要较低的FLOPS就能完成工作。 当一台计算机的响应时间低于0.1秒时,人类操作者就会认为其能够“瞬时”完成计算, 所以,一台简易计算器只需要大约10FLOPS就能够完成它的功能。

在2006年, 日本理化学研究所发表了新型计算机 MDGRAPE-3。该计算机的最高运算性能可以达到每秒一千万亿次,几乎是Blue Gene/L的两倍,但MDGRAPE-3不是一台通用型计算机,这就是为什么它不会出现在 Top500.org 名单中。 它通过特殊设计的 计算机管线 来模拟分子的运动。

到2007年, 英特尔 推出的试验性 多核 北极星 芯片,在3.13 GHz的工作频率下实现了1tFLOPS的运算速度。 80核心的芯片可以将频率提升到6.26 GHz,从而达到2tFLOPS的速度,而热功耗在这个频率下已经超过190 瓦。

2007年6月26日, IBM 公布了它的第二代顶级超级计算机,被称为Blue Gene/P。它被设计成连续操作的速度能够超过一千万亿次。 为了达到这一目标,它的最高运算速度可以达到超过三千万亿次。

在2007年的Top500.org 报告中,世界上最快的计算机是 IBM Blue Gene/L 超级计算机,测量的峰值596 万亿次浮点运算. 在 Cray XT4 以101.7 万亿次浮点运算速度的成绩位列第二。

2007年10月25日, 日本NEC公司发布其SX系列新型号 SX-9, 其声称它是世界上最快的矢量的超级计算机。 SX-9 是第一台CPU能够以每颗核心每秒102.4亿次浮点运算的速度进行顶点矢量运算的机器。

2008年2月4日, 美国国家科学基金会 和 奥斯汀的得克萨斯大学 开展了一个完全运行在 AMD和 Sun 平台,名叫Ranger的超级计算机上的研究。 这是当时世界上最强大的研究用超级计算机系统,其持续工作时的运算速度为五百万亿次。

2008年5月25日, IBM为美国建造了一台超级计算机,起名为'鹃',这台机器的运算速度达到了里程碑式的一千万亿次。 它也荣获2008年6月和11月的 TOP500 最强大的超级计算机(不包括 网格计算). 计算机位于新墨西哥的洛斯阿拉莫斯国家实验室。 计算机的名字指的是新墨西哥州鸟,大鹃 (Geococcyx californianus).

在2008年六月,AMD发布了ATI Radeon 4800系列,这是第一块达到一万亿次浮点运算能力的GPU. 2008年8月20日,AMD发布ATI Radeon HD 4870X2图形卡与两块 Radeon R770 Gpu总共达到2.4万亿次浮点运算.

2008年11月,美国能源部(DOE)的橡树岭国家实验室升级了Cray 提供的 Jaguar超级计算机。该系统的峰值计算能力为1.64千万亿次,使得美洲虎成为世界上第一个专门用于开放研究的千万亿次系统。 在2009年初,一台以神话般的动物命名超级计算机,海妖诞生了。 海妖是世界上由大学管理的计算机中速度最快的一台,在2009年TOP500榜单中名列第六。2010年,经过升级的海妖操作速度更快,更强大。

2009年, Cray Jaguar以1.75千万亿次的速度击败IBM的“鹃”,登上500强名单的第一名。

在2010年,中国推出了 天河一号,这台超级计算机工作的峰值计算速度在每秒2.5千万亿次。

同年最快的PC处理器在双精度浮点运算测试中达到 109 gFLOPS (Intel Core i7 980 XE) ,GPU的处理速度则更为强大。举例来说, Nvidia Tesla C2050 GPU 在双精度浮点运算测试中能够达到大约515 gFLOPS ,而AMD FireStream 9270的峰值工作速度也达到240 gFLOPS.

2011年,日本已开发出运算速度在10.51千万亿次的K电脑(京). 它拥有88,128颗 SPARC64VIIIfx 处理器,总共占用了864台机架,与理论性能的11.28千万亿次。 它以日本汉字"京"的读音命名,“京”表示10 万亿, 对应了它的速度 10 千万亿次。

2011年11月5日,英特尔发布一款基于x86处理器,代号为"骑士角",持续运算速度超过一万亿次。 英特尔在演示期间强调,这是持续的万亿次浮点运算(不是其它公司声称的"原生万亿次浮点运算",以获得更高,但无意义的数字),它是第一块超过一万亿次浮点运算的通用处理器.

2012年6月18日, IBM的红杉的超级计算机系统,根据美国劳伦斯*利弗莫尔国家实验室(U.S. Lawrence Livermore National Laboratory,LLNL)的测试结果,速度达到16千万亿次,奠定了新的世界纪录,并以第一名的成绩刷新了最新TOP500的名单。

2012年11月12日,TOP500名单认证的 泰坦 作为世界上最快的超级计算机通过LINPACK基准测试,运算速度在17.59千万亿次。 它是由Cray Inc. 在 橡树岭国家实验室 联合AMD皓龙处理器和"开普勒"架构的NVIDIA Tesla图形处理单元(GPU)的技术下制造完成的。

2013年6月10日,中国的 天河2号 的以33.86千万亿次成世界上最快超级计算机。2016年6月20日,中国的 神威·太湖之光 在LINPACK基准测试中以93pFLOPS(峰值速度超过125pFLOPS)的成绩登顶成为世界最快超级计算机。 该系统几乎完全基于中国的技术研发,其被安装在无锡的国家超级计算中心。据介绍,该系统比其在TOP500中下五个排名的系统算力之和还要快。

2018年6月生产的 高峰是由IBM创建的超级计算机。现在正在运行在能源部(DOE)橡树岭国家实验室,以 122.3千万亿次 的性能表现登顶HPL(High Performance Linpack),HPL是制作TOP500的名单的基准。 高峰拥有4,356节点,每个节点配有两块22核心的Power9 Cpu,以及六块NVIDIA Tesla V100 GPU。

分布式计算使用互联网链接的个人计算机来达到更高的FLOPS。



==



相关

  • 英国议会政治主题大不列颠及北爱尔兰联合王国议会(英语:The Parliament of the United Kingdom of Great Britain and Northern Ireland),中文简称为英国议会或联合王国议会,是英国和英国
  • National Science Foundation国家科学基金会(英语:National Science Foundation,缩写为NSF),全称是美国国家自然科学基金会,是一个美国政府独立机构,由美国国会于1950年创立。该机构支持除医学领域外的科学和工
  • 红花红花(学名:Carthamus tinctorius)属菊科植物。红花又称红蓝、黄蓝,菊科红花属。这种花不宜与番红花相混淆。红花古称“烟支”、“燕支”、“胭脂”等,原产于西域。匈奴人认为妻妾
  • 水韭水韭属(学名:Isoëtes),多年生挺水植物或沉水植物,高从5公分到15公分都有。叶子通常呈现丛生状,暗色且繁衍用的孢子密生于叶基内侧。一般来说,该种植物都生长在湖沼湿地。据记录,全
  • 加尔文宗归正宗(英语:Reformed church)也称加尔文宗、更正宗、改革宗,是基督新教的宗派之一。狭义的归正宗(Continental Reformed church)即欧洲的加尔文主义教会,广义的归正宗(Reformed chu
  • 热身赛热身赛是在体育竞赛中,双方为比较对方的实力以及调整选手状况而进行的比赛。与其他一般比赛(包括外围赛)不同的是,热身赛不会影响各参赛队伍的名次。
  • 加州州立理工大学波莫纳加州州立理工大学(California State Polytechnic University, Pomona,简称Cal Poly Pomona,又常被译作加州州立理工大学波莫纳分校)是一所位于加利福尼亚州南部波莫纳、历
  • 老挝人民革命党中央委员会老挝政府与政治 系列条目老挝人民革命党中央委员会是老挝人民革命党的中央最高权力机构,经全国代表大会选举产生。中央委员会选出总书记、中央政治局、中央书记处、老挝人民
  • 塔米·达克沃思拉达·塔米·达克沃思(英语:Ladda Tammy Duckworth,1968年3月12日-),美国女性政治人物,生于泰国。现任伊利诺伊州联邦参议员,曾任职代表伊利诺伊州第八选区的国会众议员。为数不多的
  • 拉姆的情歌拉姆的情歌(日语:ラムのラブソング)是日本女性歌手松谷祐子(日语:松谷祐子)的第1张单曲,1981年10月21日由Canyon(今Pony Canyon)发行。此外这里也介绍多种不同的翻唱版本。同名标题曲