c language-lawyer standards-compliance strtol

strtol 等规范中令人困惑的语言

发布于 2024-11-23 22:41:33 字数 768 浏览 5 评论 0原文

strtol 的规范在概念上将输入字符串分为“初始空白”、“主题序列”和“最终字符串”，并将“主题序列”定义为：

输入字符串的最长初始子序列，以预期形式的第一个非空白字符开始。如果输入字符串为空或完全由空白字符组成，或者第一个非空白字符不是符号或允许的字母或数字，则主题序列不应包含任何字符。

有一次，我认为“最长初始子序列”业务类似于 scanf 的工作方式，其中 "0x@" 将扫描为 "0x"，失败的匹配，后跟 "@" 作为下一个未读字符。然而，经过一番讨论，我基本上相信 strtol 处理预期形式的最长初始子序列，而不是最长初始字符串，它是预期形式的某些可能字符串的初始子序列。

仍然让我困惑的是规范中的这种语言：

如果主题序列为空或不具有预期的形式，则不执行转换； str的值存储在endptr指向的对象中，前提是endptr不是空指针。

如果我们接受“主题序列”的正确定义，则不存在不具有预期形式的非空主题序列之类的东西，相反（为了避免冗余和混乱）文本应该阅读:

如果主题序列为空，则不进行转换； str的值存储在endptr指向的对象中，前提是endptr不是空指针。

谁能为我澄清这些问题吗？也许过去讨论或任何相关缺陷报告的链接会很有用。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绝對不後悔。 2024-11-30 22:41:33

我觉得C99语言已经说的很清楚了：

主题序列被定义为最长的初始子序列
输入字符串，从第一个非空白字符开始，
这是预期的形式。

给定 "0x@"，"0x@" 不是预期的形式； “0x” 不是预期的形式；因此 "0" 是预期形式的最长初始子序列。

我同意这意味着您不能拥有不符合预期形式的非空主题序列 - 除非您解释以下内容：

在除 "C" 语言环境中，其他特定于语言环境的主题
可以接受序列形式。

...允许语言环境定义主题序列可能具有的其他可能形式，但它们不是“预期形式”。

最后一段的措辞似乎只是“腰带和括号”。

回复收藏 0 原文

放肆 2024-11-30 22:41:33

如果您从 C99 标准的 §7.20.1.4（strtol、strtoll、strtoul 和 strtoull 函数）¶2（而不是 ¶4）开始，可能会更容易理解：

¶2 strtol、strtoll、strtoul 和 strtoull 函数将初始值转换为
nptr 指向的字符串部分为 long int, long long int, unsigned
分别表示 long int 和 unsigned long long int。第一的，
他们将输入字符串分解为三个部分：一个初始的（可能是空的）序列
空白字符（由 isspace 函数指定），主题序列
类似于以某个基数表示的整数，该基数由基数的值确定，并且
由一个或多个无法识别的字符组成的最终字符串，包括终止 null
输入字符串的字符。然后，他们尝试将主题序列转换为
整数，并返回结果。
¶3 如果 base 的值为零，则主题序列的预期形式是
整数常量，如 6.4.4.1 中所述，前面可以选择加号或减号，但是
不包括整数后缀。如果base的值在2到36之间（含），
主题序列的预期形式是代表一个字母和数字的序列
具有由基数指定的基数的整数，前面可以选择加号或减号，
但不包括整数后缀。从a（或A）到z（或Z）的字母是
赋予值 10 到 35；仅指定值较小的字母和数字
比基地允许的。如果base的值为16，则字符0x或0X可能
可以选择在字母和数字序列之前，在符号（如果存在）之后。
¶4 主题序列被定义为输入字符串的最长初始子序列，...

特别是，¶3 阐明了主题序列是什么。

回复收藏 0 原文

小兔几 2024-11-30 22:41:33

strtol 的 POSIX 规范似乎更清楚：

这些函数应分别将 str 指向的字符串的初始部分转换为 long 和 long long 表示形式。首先，它们将输入字符串分解为三个部分：
初始的、可能为空的空白字符序列（由 isspace() 指定）
被解释为整数的主题序列，以由基值确定的某个基数表示
由一个或多个无法识别的字符组成的最终字符串，包括输入字符串的终止 NUL 字符。
然后他们将尝试将主题序列转换为整数，并返回结果。

但当然，它不是规范性的，并且“遵循 ISO C 标准”。

回复收藏 0 原文

若相惜即相离 2024-11-30 22:41:33

我完全同意您的评估：根据定义，所有非空主题序列都是预期的形式，因此标准的措辞是可疑的。

对于浮点转换函数，还有另一个错误（C99:TC3 第 7.20.1.3 节，§3）：

[...] 主题序列被定义为最长的初始序列
输入字符串的子序列，从第一个开始
非空白字符，即预期形式。主题
如果输入字符串不属于序列，则序列不包含字符
预期的形式。

这意味着整个输入字符串必须是预期的形式，这违背了endptr参数的目的。有人可能会说输入字符串的预期形式与主题序列的预期形式不同，但这仍然很令人困惑。

您也正确地认为 strto*() 和 *scanf() 系列函数的语义是不同的：如果两者匹配，它们将始终在值上达成一致，并且消耗相同数量的字符（以及任何不被破坏的 libc 实现，包括我上次检查时的 newlib 和 glibc），但 *scanf() 另外无法匹配需要的情况回溯多个字符，如您的示例“0x@”和“1.0e+”。