乱谈整型与浮点

Author Avatar
Jimmy Zhang Aug 18, 2017
  • Read this article on other devices

前言

一年没碰 C/C++ 后果然什么都不会了欸,开学考试怎么办啊 orz

前几天好友终于也入了 C/C++ 的邪教,问起了几个浮点相关的问题,让我终于意识到深陷现代语言泥潭的我早已忘却这些富有趣味但又基础地不能在基础的知识…… 在网上大量查阅相关资料后决定属文以记之。

整型

注:本文中默认 int 长度为 3232 位。

无符号整形

这里以 unsigned int 为例(3232 位)。unsigned int 就是没有符号的 int,在内存里占用 44 Byte,也就是 3232 bit。很容易得知其能存储的最小值为 00,最大值则为 2321=42949672952^{32} - 1 = 4294967295

整形

int 是带有符号的,因此其所占据的第 0310 \sim 31 位中第 3131 位是用于存储符号的(00 为正,11 为负)。当然你会问,既然所有位均为 00 时变量的值为 00,那么符号位为 11 时剩余位为 00 表示的又是什么呢?

这里就要牵扯进补数 (2’s complement,又称二补数) 的概念了。

一个数字的二补数就是将该数字作比特反相运算(即反码),再将结果加 1。在二补数系统中,一个负数就是用其对应正数的二补数来表示。(Wikipedia,有修改)

而借助二补数性质进行编码的编码系统则简称补码,在补码系统中,我们采用如下方式表示每一个数:

  • 对于非负数,采用原始二进制表示;
  • 对于负数,符号位为 11,剩余位采用其补数表示。

为了方便,我们假定一种只有 88 位的整型数据类型来举几个例子(注意下面列出的是对应的补码不是二补数):

符号位=
01 1 1 1 1 1 1127
00 0 0 0 0 1 02
00 0 0 0 0 0 11
00 0 0 0 0 0 00
11 1 1 1 1 1 1-1
11 1 1 1 1 1 0-2
10 0 0 0 0 0 1-127
10 0 0 0 0 0 0-128

我们可以容易地总结出以下两点:

  • 取负运算实际上就是取该数的二补数 (x+1\sim x + 1)。
  • 有两个数的二补数等于其本身:00128-128 (溢出了,所以就变成自己了)。

至此,我们也应该理解为什么 3232 位整型的取值范围是 21474836482147483647-2147483648 \sim 2147483647 了。

浮点

在 C 语言中,浮点数的存储均遵循 IEEE 754 标准。我们不妨结合标准内容来对 float 做一番介绍。

注:并不是在任何情况下浮点数的存储都遵循 IEEE 754 标准!这里仅介绍 IEEE 754 标准。

整体结构

在 IEEE 754 中,浮点数的存储被划为三个部分:符号位 (sign bit)、阶码 (biased exponent)、尾码 (mantissa)。在单精度中它们的长度分别为 11 bit、88 bit 和 2323 bit;双精度中它们的长度分别为 11 bit、1111 bit 和 5252 bit。

为了方便展示,不妨从 Wikipedia 盗两张图下来(遵循 Creative Commons Attribution-ShareAlike License):

单精度

Single precision

双精度

Double precision

我们知道任意一个二进制浮点数 VV 都可以表示为(科学记数法):

V=(1)sM2EV = (-1)^s \cdot M \cdot 2^E

其中,ss符号位MM 是有效数字(1M<21 \le M < 2),EE 是指数。

举个例子,对于 0.1562510{0.15625}{10},其二进制表示为 0.001012{0.00101}{2},用科学记数法表示就是 0.001012=1.012×23{0.00101}_2 = {1.01}_2 \times 2^{-3},那么其符号位为 00,有效数字为 1.012{1.01}_2,尾码为 .012{.01}_2,指数为 3-3

我们很容易发现,MM 的整数部分一定恒为 1,那还存什么存?只用存 MM 的小数部分就行了,所以尾码就是 M1M - 1

指数偏移值

依据前文对阶码存储结构的介绍,阶码看起来就像是一个无符号整数。可惜科学记数法中指数是可以为负数的。怎么办?IEEE 就搞了个 指数偏移值 (exponent bias)出来。指数偏移值就是指浮点数表示法中的指数域的编码值(即阶码的值)为指数的实际值加上某个固定的值(阶码 = EE + 指数偏移值)。在 IEEE 754 标准中,指数偏移值的固定大小为 2e112^{e - 1} - 1,其中 ee 为储存指数的比特长度。

例如,在单精度中,阶码位长 ee 为 8 bit,换算成十进制其可表示范围为 02550 \sim 255。依据前文,其指数偏移值是 2811=1272^{8 - 1} - 1 = 127。这样一来,对于单精度浮点数类型指数就可取 127128-127 \sim 128 了。

规约形式与非规约形式

规约形式 (Normalized numbers)

规约形式的浮点数指的是阶码范围为 (0,2e1)(0, 2^{e} - 1) ,且尾码部分最高有效位(即整数部分)为 11 的浮点数。也就是说,前文中我们讨论的浮点数都是规约形式的。

非规约形式 (Denormalized numbers)

为了减小因为下溢 (underflow) 造成的精度损失(换言之,为了使得浮点数可表示的正最小值和负最大值更接近 00),IEEE 754 标准中提出了非规约形式浮点数——用于填补最小正数和最大负数与 00 的距离。

非规约形式浮点数阶码00,并且尾码为非 00。相比规约形式浮点数其最大的不同之处在于,其尾码隐含的整数部分不再是 11,而变成了 00。另外,IEEE 754 标准规定,非规约形式的浮点数的指数偏移值比规约形式的浮点数的指数偏移值小 11。也就是说,最小的规约形式浮点数阶码为 1,指数的实际值为 126-126。而非规约形式的单精度浮点数的阶码为 00,依照上述规定其指数的实际值也是 126-126 而不是 127-127

为什么要这样规定?

我们首先来看看这种规定下非规约形式浮点数能表示的最大正浮点数吧(拿单精度举个例子,双精度是类似的):

符号位阶码尾码
00000 0000111 1111 1111 1111 1111 1111

不难得出,其实际指数 E=0126=126E = 0 - 126 = -126,其实际有效数字为 0.111111111111111111111112{0.11111111111111111111111}_2。因此,二进制下,其表示的实际值为 V=0.111111111111111111111112×2126V = {0.11111111111111111111111}_2 \times 2^{-126}

而对于规约形式浮点数能表示的最小正浮点数:

符号位阶码尾码
00000 0001000 0000 0000 0000 0000 0000

不难得出,其实际指数为 E=1127=126E = 1 - 127 = -126,其实际有效数字为 1.000000000000000000000002{1.00000000000000000000000}_2。因此,二进制下,其表示的实际值为 V=1.000000000000000000000002×2126V = {1.00000000000000000000000}_2 \times 2^{-126}

不难发现在这种规定下,最大非规约形式浮点数和最小非规约形式浮点数是连续的。这也是该规定出现的原因。

特殊值

另外,在标准中也定义了几个特殊值:

  • 阶码尾码均为 00 时,浮点数表示的实际值为 ±0\pm 0
  • 阶码2e12^{e} - 1尾码为 0 时,浮点数表示的实际值为 ±\pm \infty
  • 阶码2e12^e - 1尾码非 0 时,浮点数表示的实际值为 NaN (Not a Number)。

NaN 是什么?可以吃吗?

当然不能。NaN 往往出现于一些无效的计算结果。比如说,对负数进行求平方根运算,返回的结果就是 NaN。

取值范围、精度和间隙

注:本节主要讨论单精度浮点数的取值范围与精度。双精度与之类似,所以请读者自行推导。

取值范围 (Range)

前文中已经介绍过单精度浮点数在存储中的大致结构了。我们先就正浮点数做一下分析:

非规约形式单精度浮点数能表示的最小正值

符号位阶码尾码
00000 0000000 0000 0000 0000 0000 0001

不难得出,不难得出,其实际指数 EE = 0 - 126 = -126,其实际有效数字为 0.000000000000000000000012{0.00000000000000000000001}_2。因此,二进制下,其表示的实际值为 V=0.000000000000000000000012×21261.40130×1045V = {0.00000000000000000000001}_2 \times 2^{-126} \approx 1.40130 \times 10^{-45}

规约形式单精度浮点数能表示的最小正值

符号位阶码尾码
00000 0001000 0000 0000 0000 0000 0000

不难得出,其实际指数为 EE = 1 - 127 = -126,其实际有效数字为 1.000000000000000000000002{1.00000000000000000000000}_2。因此,二进制下,其表示的实际值为 V=1.000000000000000000000002×21261.17549×1038V = {1.00000000000000000000000}_2 \times 2^{-126} \approx 1.17549 \times 10^{-38}

单精度浮点数能表示的最大正值
符号位阶码尾码
01111 1110111 1111 1111 1111 1111 1111

不难得出,不难得出,其实际指数 EE = 254 - 127 = 127,其实际有效数字为 1.111111111111111111111112{1.11111111111111111111111}_2。因此,二进制下,其表示的实际值为 V=1.111111111111111111111112×21273.40282×1038V = {1.11111111111111111111111}_2 \times 2^{127} \approx 3.40282 \times 10^{38}

对于负数也是一样的,这里也不做过多讨论。

双精度也是与此类似的,这里只给出如下结论:

非规约形式双精度浮点数能表示的最小正值

210744.94066×103242^{-1074} \approx 4.94066 \times 10^{-324}

规约形式双精度浮点数能表示的最小正值

210222.22507×103082^{-1022} \approx 2.22507 \times 10^{-308}

双精度浮点数能表示的最大正值

(1253)×210241.79769×10308(1 - 2^{-53}) \times 2^{1024} \approx 1.79769 \times 10^{308}

精度 (Precision) 与 间隙 (Gap)

首先摘抄一段来自 Wikipedia 的原文:

Precision is defined as the minimum difference between two successive mantissa representations; thus it is a function only in the mantissa; while the gap is defined as the difference between two successive numbers.

简单翻译过来就是(不知道翻译错没有):

精度的定义为两个连续尾数表示之间的最小差值,因此它只是存在于尾数中的功能。而间隙被定义为两个连续数字之间的差值。

对于精度,我们已经可以很容易地回答这个问题了。对于单精度浮点数,尾码有 2323 位。223=83886082^{23} = 8388608,因此单精度浮点数最长(不完整地)可存储小数点后 77 位,但只能完整地存储小数点后 66

而对于间隙出现的原因,我们可以这样理解。

前面我们提到了浮点数内部存储实际上是二进制科学记数法,我们不难发现尾数是有限位的。当指数越来越大时,相邻两尾数表示的两实际值之间的大小也越来越大。这两实际值之间的差也就是间隙。而在间隙之间的数是无法被准确存储下来的。

我们不妨从 Wikipedia 摘录一个展示单精度类型在不同指数下相邻两实际值之间的间隙大小的表格。其中最小值和最大值分别代表当实际指数一定时该浮点数可表示的最小十进制数和最大十进制数。

实际指数阶码最小值最大值间隙
01271≈ 1.999999880791≈ 1.19209e-7
11282≈ 3.999999761581≈ 2.38419e-7
21294≈ 7.999999523163≈ 4.76837e-7
101371024≈ 2047.999877930≈ 1.22070e-4
111382048≈ 4095.999755859≈ 2.44141e-4
231508388608167772151
2415116777216335544302
127254≈ 1.70141e38≈ 3.40282e38≈ 2.02824e31

根据表格,当实际指数为 24 时,相邻两数间的差值已经达到了 2 这么大。因此,162777217162777217 实际上是无法用浮点数表示的,因为事实上它的值会丢失精度至 162777216162777216

相比单精度,由于双精度的尾数总位数更长,故在指数相同时,双精度数与数之间的间隙会比单精度数更小。下面我们也继续从 Wikipedia 摘录一个展示双精度类型不同指数下相邻两实际值间间隙的表格:

实际指数阶码最小值最大值间隙
010231≈ 1.999999999999999777955≈ 2.22045e-16
110242≈ 3.999999999999999555911≈ 4.44089e-16
210254≈ 7.999999999999999111822≈ 8.88178e-16
1010331024≈ 2047.999999999999772626≈ 2.27374e-13
1110342048≈ 4095.999999999999545253≈ 4.54747e-13
521075450359962737049690071992547409911
5310769007199254740992180143985094819822
10232046≈ 8.98847e307≈ 1.79769e308≈ 1.99584e292

这也完美地解释了前几天在学校的 OJ 上水题有的题明明在单精度取值范围内却没法用单精度 A 掉的原因…… 看起来还是我太弱了 orz。

小结

懒得写了(逃

参考文献

排序顺序嘛…… 我才不会告诉你是乱序呢。

This blog is under a CC BY-NC-SA 4.0 Unported License.
Link to this article: https://blog.codgician.pw/2017/08/18/on-int-and-float/