IEEE 754

✍ dations ◷ 2025-06-18 06:31:56 #计算机算术,IEEE标准

IEEE二进制浮点数算术标准(IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denormal number),一些特殊数值((无穷(Inf)与非数值(NaN)),以及这些数值的“浮点数运算符”;它也指明了四种数值舍入规则和五种例外状况(包括例外发生的时机与处理方式)。

IEEE 754规定了四种表示浮点数值的方式:单精确度(32位)、双精确度(64位)、延伸单精确度(43比特以上,很少使用)与延伸双精确度(79比特以上,通常以80位实现)。只有32位模式有强制要求,其他都是选择性的。大部分编程语言都提供了IEEE浮点数格式与算术,但有些将其列为非必需的。例如,IEEE 754问世之前就有的C语言,现在包括了IEEE算术,但不算作强制要求(C语言的float通常是指IEEE单精确度,而double是指双精确度)。

该标准的全称为IEEE二进制浮点数算术标准(ANSI/IEEE Std 754-1985),又称IEC 60559:1989,微处理器系统的二进制浮点数算术(本来的编号是IEC 559:1989)。后来还有“与基数无关的浮点数”的“IEEE 854-1987标准”,有规定基数为2跟10的状况。现在最新标准是“ISO/IEC/IEEE FDIS 60559:2010”。

在六、七十年代,各家计算机公司的各个型号的计算机,有着千差万别的浮点数表示,却没有一个业界通用的标准。这给数据交换、计算机协同工作造成了极大不便。IEEE的浮点数专业小组于七十年代末期开始酝酿浮点数的标准。在1980年,英特尔公司就推出了单片的8087浮点数协处理器,其浮点数表示法及定义的运算具有足够的合理性、先进性,被IEEE采用作为浮点数的标准,于1985年发布。而在此前,这一标准的内容已在八十年代初期被各计算机公司广泛采用,成了事实上的业界工业标准。加州大学伯克利分校的数值计算与计算机科学教授威廉·卡韩被誉为“浮点数之父”。

一个浮点数 (Value) 的表示其实可以这样表示:

Value = sign × exponent × fraction {\displaystyle {\texttt {Value}}={\texttt {sign}}\times {\texttt {exponent}}\times {\texttt {fraction}}}

也就是浮点数的实际值,等于符号位(sign bit)乘以指数偏移值(exponent bias)再乘以分数值(fraction)。

以下内文是IEEE 754对浮点数格式的描述。

把W个比特(bit)的数据,从内存地址低端到高端,以0到W−1编码。通常将内存地址低端的比特写在最右边,称作最低有效位(Least Significant Bit, LSB),代表最小的比特,改变时对整体数值影响最小的比特。声明这一点的必要性在于X86体系架构是小端序的数据存储。

对于十进制整数N,必要时表示为N10以与二进制的数的表示N2相区分。

对于一个数,其二进制科学计数法表示下的指数的值,下文称之为指数的实际值;而根据IEEE 754标准对指数部分的编码的值,称之为浮点数表示法指数域的编码值。

二进制浮点数是以符号数值表示法的格式存储——最高有效位被指定为符号位(sign bit);“指数部分”,即次高有效的e个比特,存储指数部分;最后剩下的f个低有效位的比特,存储“有效数”(significand)的小数部分(在非规约形式下整数部分默认为0,其他情况下一律默认为1)。

指数偏移值(exponent bias),即浮点数表示法中指数域的编码值,等于指数的实际值加上某个固定的值,IEEE 754标准规定该固定值为 2 e 1 1 {\displaystyle 2^{e-1}-1} ,其中的 e {\displaystyle e} 为存储指数的比特的长度。

以单精度浮点数为例,它的指数域是8个比特,固定偏移值是 2 8 1 1 = 128 1 = 127 {\displaystyle 2^{8-1}-1=128-1=127} 。此为有号数的表示方式,单精度浮点数的指数部分实际取值是从-126到127(-127和128被用作特殊值处理,见下方“非规约形式的浮点数”和“特殊值”)。例如指数实际值为 17 10 {\displaystyle 17_{10}} ,在单精度浮点数中的指数域编码值为 144 10 {\displaystyle 144_{10}} ,即 144 10 = 17 10 + 127 10 {\displaystyle 144_{10}=17_{10}+127_{10}}

采用指数的实际值加上固定的偏移值的办法表示浮点数的指数,好处是可以用长度为 e {\displaystyle e} 个比特的无符号整数来表示所有的指数取值,这使得两个浮点数的指数大小的比较更为容易,实际上可以按照字典次序比较两个浮点表示的大小。

这种移码表示的指数部分,中文称作阶码。

如果浮点数中指数部分的编码值在 0 < exponent 2 e 2 {\displaystyle 0<{\textrm {exponent}}\leqslant 2^{e}-2} 之间,且在科学表示法的表示方式下,分数 (fraction) 部分最高有效位(即整数字)是 1 {\displaystyle 1} ,那么这个浮点数将被称为规约形式的浮点数。“规约”是指用唯一确定的浮点形式去表示一个值。

由于这种表示下的尾数有一位隐含的二进制有效数字,为了与二进制科学计数法的尾数(mantissa)相区别,IEEE754称之为有效数(significant)。

举例来说,双精度 (64-bit) 的规约形式浮点数在指数偏移值的值域为 00000000001 {\displaystyle 00000000001} (11-bit) 到 11111111110 {\displaystyle 11111111110} ,在分数部分则是 000.....000 {\displaystyle 000.....000} 111.....111 {\displaystyle 111.....111} (52-bit)

如果浮点数的指数部分的编码值是0,分数部分非零,那么这个浮点数将被称为非规约形式的浮点数。一般是某个数字相当接近零时才会使用非规约型式来表示。IEEE 754标准规定:非规约形式的浮点数的指数偏移值比规约形式的浮点数的指数偏移值小1。例如,最小的规约形式的单精度浮点数的指数部分编码值为1,指数的实际值为-126;而非规约的单精度浮点数的指数域编码值为0,对应的指数实际值也是-126而不是-127。实际上非规约形式的浮点数仍然是有效可以使用的,只是它们的绝对值已经小于所有的规约浮点数的绝对值;即所有的非规约浮点数比规约浮点数更接近0。规约浮点数的尾数大于等于1且小于2,而非规约浮点数的尾数小于1且大于0。

除了规约浮点数,IEEE754-1985标准采用非规约浮点数,用来解决填补绝对值意义下最小规格数与零的距离。(举例说,正数下,最大的非规格数等于最小的规格数。而一个浮点数编码中,如果exponent=0,且尾数部分不为零,那么就按照非规约浮点数来解析)非规约浮点数源于70年代末IEEE浮点数标准化专业技术委员会酝酿浮点数二进制标准时,Intel公司对渐进式下溢出(gradual underflow)的力荐。当时十分流行的DEC VAX机的浮点数表示采用了突然式下溢出(abrupt underflow)。如果没有渐进式下溢出,那么0与绝对值最小的浮点数之间的距离(gap)将大于相邻的小浮点数之间的距离。例如单精度浮点数的绝对值最小的规约浮点数是 1.0 × 2 126 {\displaystyle 1.0\times 2^{-126}} ,它与绝对值次小的规约浮点数之间的距离为 2 126 × 2 23 = 2 149 {\displaystyle 2^{-126}\times 2^{-23}=2^{-149}} 。如果不采用渐进式下溢出,那么绝对值最小的规约浮点数与0的距离是相邻的小浮点数之间距离的 2 23 {\displaystyle 2^{23}} 倍,可以说是非常突然的下溢出到0。这种情况的一种糟糕后果是:两个不等的小浮点数X与Y相减,结果将是。训练有素的数值分析人员可能会适应这种限制情况,但对于普通的程序员就很容易陷入错误了。采用了渐进式下溢出后将不会出现这种情况。例如对于单精度浮点数,指数部分实际最小值是(-126),对应的尾数部分从 1.1111 11 {\displaystyle 1.1111\ldots 11} , 1.1111 10 {\displaystyle 1.1111\ldots 10} 一直到 0.0000 10 {\displaystyle 0.0000\ldots 10} , 0.0000 01 {\displaystyle 0.0000\ldots 01} 0.0000 00 {\displaystyle 0.0000\ldots 00} 相邻两小浮点数之间的距离(gap)都是 2 126 × 2 23 = 2 149 {\displaystyle 2^{-126}\times 2^{-23}=2^{-149}} ;而与0最近的浮点数(即最小的非规约数)也是 2 126 × 2 23 = 2 149 {\displaystyle 2^{-126}\times 2^{-23}=2^{-149}}

这里有三个特殊值需要指出:

以上规则,总结如下:

单精度二进制小数,使用32个比特存储。

S为符号位,Exp为指数字,Fraction为有效数字。指数部分即使用所谓的偏正值形式表示,偏正值为实际的指数大小与一个固定值(32位的情况是127)的和。采用这种方式表示的目的是简化比较。因为,指数的值可能为正也可能为负,如果采用补码表示的话,全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此,指数部分通常采用一个无符号的正数值存储。单精度的指数部分是−126~+127加上偏移值127,指数值的大小从1~254(0和255是特殊值)。浮点小数计算时,指数值减去偏正值将是实际的指数大小。

单精度浮点数各种极值情况:

双精度二进制小数,使用64个比特存储。

S为符号位,Exp为指数字,Fraction为有效数字。指数部分即使用所谓的偏正值形式表示,偏正值为实际的指数大小与一个固定值(64位的情况是1023)的和。采用这种方式表示的目的是简化比较。因为,指数的值可能为正也可能为负,如果采用补码表示的话,全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此,指数部分通常采用一个无符号的正数值存储。双精度的指数部分是−1022~+1023加上1023,指数值的大小从1~2046(0(2进位全为0)和2047(2进位全为1)是特殊值)。浮点小数计算时,指数值减去偏正值将是实际的指数大小。

浮点数基本上可以按照符号位、指数域、尾数域的顺序作字典比较。显然,所有正数大于负数;正负号相同时,指数的二进制表示法更大的其浮点数值更大。

任何有效数上的运算结果,通常都存放在较长的寄存器中,当结果被放回浮点格式时,必须将多出来的比特丢弃。有多种方法可以用来运行舍入作业,实际上IEEE标准列出4种不同的方法:

下述函数必须提供:

在二进制,第一个有效数字必定是“1”,因此这个“1”并不会存储。

单精和双精浮点数的有效数字分别是有存储的23和52个位,加上最左手边没有存储的第1个位,即是24和53个位。

由以上的计算,单精和双精浮点数可以保证7位和15位十进制有效数字。

C++语言标准定义的浮点数的十进制精度(decimal precision):十进制数字的位数,可被(浮点数)表示而值不发生变化。C语言标准定义的浮点数的十进制精度为:十进制数字的位数q,使得任何具有q位十进制数字的浮点数可近似表示为b进制的p位数字并且能近似回十进制表示而不改变这q位十进制数字

但由于相对近似误差不均匀,有的7位十进制浮点数不能保证近似转化为32比特浮点再近似转化回7位十进制浮点后保持值不变:例如8.589973e9将变成8.589974e9。这种近似误差不会超过1比特的表示能力,因此(24-1)*std::log10(2)等于6.92,下取整为6,成为std::numeric_limits<float>::digits10以及FLT_DIG的值。std::numeric_limits<float>::max_digits10的值为9,含义是必须9位十进制数字才能区分float的所有值;也即float的最大表示区分度。

类似的,std::numeric_limits<double>::digits10或DBL_DIG是15, std::numeric_limits<double>::max_digits10是17

以下的C++程序,概略地展示了单精和双精浮点数的精度。

相关

  • 自然分娩自然分娩是一种没有常规医疗介入(包括麻醉)的分娩方式。相对于一般工业化社会中配合医疗技术的分娩方式,自然分娩希望让医疗的介入降到最低,特别是像麻醉药、会阴切开术等医疗介
  • 江户幕府末年参数所指定的目标页面不存在,建议更正成存在页面或直接建立下列一个页面(建立前请先搜寻是否有合适的存在页面可以取代):幕末,即江户幕府末年,是指日本历史上德川幕府统治时代(江户
  • 马来人马来西亚土著(马来语:Bumiputera),在《马来西亚宪法》下指的是马来西亚的马来人,及沙巴和砂拉越的原住民族。Bumiputera一词源自梵文,意指地球之子或是土地之子,这是由于Bumi一词有
  • 至元至元(元年:1264年八月—末年:1294年)是元世祖忽必烈在建立元朝以前创制的年号,共连续使用了31年。中统 → 至元 → 元贞 → 大德 → 至大 → 皇庆 → 延祐 → 至治 → 泰定 → 致
  • 两浙西路两浙西路是两宋时期的一个地方行政区。
  • 荷兰语正写法荷兰语正写法(荷兰语:Nederlandse spelling),简称荷兰文,是一套以拉丁字母为基础,制定出适合用于拼写荷兰语的正写法。该拼写系统由政府以法令颁布,对所有政府文件和教育机构皆具强
  • 沃希拜沙漠沃希拜沙漠(Al Wahibah Dunes)是中东地区的一个沙漠,位于阿曼中部,东南面为阿拉伯海,沿海岸延绵160公里。坐标:22°00′N 58°50′E / 22°N 58.83°E / 22; 58.83
  • 多明戈食蚊鱼多明戈食蚊鱼,为辐鳍鱼纲鲤齿目鲤齿亚目花鳉科的其中一种,被IUCN列为濒危保育类动物,分布于中美洲海地及多米尼加的淡水流域,体长可达2.5公分,属于肉食性,生活习性不明,可作为观赏
  • 南欧七国南欧七国,也称地中海集团、地中海七国、南部欧洲七国集团等(英文称EU Med或EuroMed 7、Med Group、Club Med等),是指7个位于南欧的欧洲联盟成员国之间的联盟。这七个国家是指塞
  • 面角守恒定律所谓面角指晶面法线间的夹角。它在数值上等于相应晶面实际夹角的补角(即180°减去晶面实际夹角)。晶体在生长过程中,往往由于外界客观环境的影响,造成形态上发生不同程度的畸变,