当前位置：文江博客话题详情

双精度浮点数如何存储和计算？

发布于 2025-01-02 15:07:24 字数 464 浏览 2 评论 0原文

我真的很好奇双精度浮点数是如何存储的。

这些是我到目前为止所弄清楚的事情。

它们需要 64 位内存
由三部分组成
- 符号位（1位长）
- 指数（11 位长）
- 小数（53 位，假定第一位始终为 1，因此仅存储 52，除非所有 52 位均为 0。则假定前导位为 0）

但是我不明白什么是指数、指数偏差以及维基百科页面。

谁能向我解释一下这些东西是什么，它们是如何工作的，并最终一步一步计算出真实的数字？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

所谓喜欢 2025-01-09 15:07:24

查看页面下方的公式：

除了上述例外情况外，整个双精度数的描述如下：

(-1)^sign * 2^(exponent -bias) * 1.mantissa

该公式意味着对于非 NAN、非 INF、非零和非正规数（我将忽略它们），您采用尾数中的位并在顶部添加隐式 1 位。这使得尾数为 1.0 ... 1.111111...11（二进制）范围内的 53 位。要获得实际值，请将尾数乘以 2 的指数减去偏差 (1023) 的幂，然后根据符号位对结果取反或不取反。数字 1.0 的无偏指数为零（即 1.0 = 1.0 * 2^0），其有偏指数将为 1023（偏差只是添加到指数上）。因此，1.0 将是符号 = 1，指数 = 1023，尾数 = 0（记住隐藏的尾数位）。

将它们全部放在十六进制中，值将是 0x3FF000000000 == 1.0。

回复收藏 0 原文

‖放下 2025-01-09 15:07:24

符号：负为 1，正为 0
分数：二进制模式下的工程浮动表示。
指数：是指数e，使得fraction * 2^e等于我想要表示的数字。
偏差是一个必须减去指数才能得到正确表示的数字。在双精度中是 1023，在单精度中是 127。

一个例子（在单精度中，我更舒服地写=））：
如果我必须表示 -0.75 我会：
- 二进制表示将是 -11 * 2^-2 = -1.1 * 2^-1

符号 = 1
分数 = 1 + .1000....
偏置指数： -1 + 127 = <代码>126 -> 01111110

所以我们有 -0.75 = 1 01111110 10000000000000000000000

对于总和，您必须对齐指数，然后可以对小数部分求和。

对于乘法，您必须

对指数求和，然后减去偏差
的小数部分相乘
，将结果四舍五入
，查看符号（如果符号相同，则符号 = 0，否则符号 = 1）

回复收藏 0 原文

顾挽 2025-01-09 15:07:24

    int main()
    {
         double num = 5643.0662;
         int sign = 0;
         int exponent = 1035;
         int exponent_bias = 1023;
         float mantissa = 0.0662;

          double x = pow(-1,sign) * pow(2,(exponent - exponent_bias)) * (1+mantissa);
         int y = num - x;

       cout << "\nValue of x is : " << x << endl;
       cout << "\nValue of y is : " << y << endl;

      return 0;
  }

    int main()
    {
         double num = 5643.0662;
         int sign = 0;
         int exponent = 1035;
         int exponent_bias = 1023;
         float mantissa = 0.0662;

          double x = pow(-1,sign) * pow(2,(exponent - exponent_bias)) * (1+mantissa);
         int y = num - x;

       cout << "\nValue of x is : " << x << endl;
       cout << "\nValue of y is : " << y << endl;

      return 0;
  }

回复收藏 0 原文

~没有更多了~