关于浮点数的一些问题

发布于 2024-09-26 12:36:25 字数 707 浏览 6 评论 0原文

我想知道一个数字是否在浮点表示中以一种方式表示，是否会在更大尺寸的表示中以相同的方式表示。也就是说，如果一个数字具有 float 的特定表示形式，那么如果将该 float 转换为 double 且该数字具有相同的表示形式，并且那么当转换为long double时仍然相同。

我想知道，因为我正在编写一个 BigInteger 实现，并且我将传入的任何浮点数发送到接受 long double 进行转换的函数。这引出了我的下一个问题。显然，浮点并不总是具有精确的表示，因此在我的 BigInteger 类中，当给定浮点数时我应该尝试表示什么。尝试表示与 std::cout << 给出的相同数字是否合理？ std::固定<< someFloat; 即使这与传入的数字不同。这是我能得到的最准确的表示吗？如果是这样，...

提取该值的最佳方法是什么（以 10 的幂为基数），目前我只是将其作为字符串获取并将其传递给我的字符串构造函数。这会起作用，但我忍不住觉得有更好的方法，但是当除以我的基数时，用浮点数除以余数肯定不准确。

最后，我想知道是否存在与 uintmax_t 等效的浮点，它是一个始终是系统上最大浮点类型的类型名，或者没有意义，因为 long double< /code> 将始终是最大的（即使它与 double 相同）。

谢谢，T。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

执手闯天涯 2024-10-03 12:36:25

如果“相同表示”的意思是“内存中除了填充之外完全相同的二进制表示”，那么不是。双精度具有更多的指数和尾数位数，并且还具有不同的指数偏差。但我相信任何单精度值都可以精确地用双精度表示（除了可能的非规范化值）。

我不确定当你说“浮点并不总是有精确的表示”时你的意思是什么。当然，并非所有十进制浮点值都具有精确的二进制浮点值（反之亦然），但我不确定这是否是一个问题。只要您的浮点输入没有小数部分，那么适当大的“BigInteger”格式应该能够准确地表示它。

通过以 10 为基数表示的转换并不是正确的方法。理论上，您所需要的只是一个长度约为 1024 的位数组，将其全部初始化为零，然后将尾数位移入指数值。但如果不了解更多关于您的实现的信息，我就没有更多建议了！

回复收藏 0 原文

泪痕残 2024-10-03 12:36:25

double 包含 float 的所有值； long double 包含 double 的所有值。因此，转换为 long double 时您不会丢失任何值信息。但是，您将丢失有关原始类型的相关信息（见下文）。

为了遵循常见的 C++ 语义，将浮点值转换为整数应截断该值，而不是舍入。

主要问题是不精确的大值。您可以使用 frexp 函数查找浮点值的以 2 为底的指数。您可以使用 std::numeric_limits::digits 来检查它是否在可以精确表示的整数范围内。

我个人的设计选择是断言 fp 值在可以精确表示的范围内，即对任何实际参数的范围的限制。

为了正确地做到这一点，您需要使用 float 和 double 参数进行重载，因为可以精确表示的范围取决于实际参数的类型。

当您的 fp 值在允许的范围内时，您可以使用 floor 和 fmod 提取您想要的任何数字系统中的数字。

回复收藏 0 原文

や莫失莫忘 2024-10-03 12:36:25

是的，从 IEEE float 到 double 再到扩展，您将看到从小格式到大格式的位，例如

single
S EEEEEEEE MMMMMMM.....
double 
S EEEEEEEEEEEE MMMMM....

6.5 single
0 10000001 101000...
6.5 double
0 10000000001 101000...
13 single
0 10000010 101000...
13 double
0 10000000010 101000...

，您将左对齐尾数，然后添加零。

指数右对齐，符号扩展下一个 msbit，然后复制 msbit。

例如 -2 的指数。 -2 减 1 即为 -3。 -3 的二进制补码是 0xFD 或 0b11111101，但格式中的指数位是 0b01111101，即 msbit 反转。对于双精度 -2 指数 -2-1 = -3。或 0b1111...1101，变成 0b0111...1101，msbit 反转。（指数位 =twos_complement(exponent-1)，其中 msbit 反转）。

正如我们在上面看到的，指数 3 3-1 = 2 0b000...010 反转高位 0b100...010

所以，是的，您可以从单精度中取出这些位并将它们复制到双精度数中的正确位置。我没有方便的扩展浮动参考，但很确定它的工作方式相同。

yes, going from IEEE float to double to extended you will see bits from the smaller format to the larger format, for example

single
S EEEEEEEE MMMMMMM.....
double 
S EEEEEEEEEEEE MMMMM....

6.5 single
0 10000001 101000...
6.5 double
0 10000000001 101000...
13 single
0 10000010 101000...
13 double
0 10000000010 101000...

The mantissa you will left justify and then add zeros.

The exponent is right justified, sign extend the next to msbit then copy the msbit.

An exponent of -2 for example. take -2 subtract 1 which is -3. -3 in twos complement is 0xFD or 0b11111101 but the exponent bits in the format are 0b01111101, the msbit inverted. And for double a -2 exponent -2-1 = -3. or 0b1111...1101 and that becomes 0b0111...1101, the msbit inverted. (exponent bits = twos_complement(exponent-1) with the msbit inverted).

As we see above an exponent of 3 3-1 = 2 0b000...010 invert the upper bit 0b100...010

So yes you can take the bits from single precision and copy them to the proper locations in the double precision number. I dont have an extended float reference handy but pretty sure it works the same way.

回复收藏 0 原文

~没有更多了~