如何将其标记化？

发布于 2024-12-13 20:03:09 字数 370 浏览 0 评论 0原文

我正在尝试手动编写标记器代码。我继续阅读可以作为令牌一部分的字符。例如，整数只能包含数字。因此，在下面的文本中，我继续读取字符，直到找到非数字字符。所以我得到 123 作为令牌。接下来我得到 ( 作为标记，然后 abc 作为标识符。这很好，因为 ( 是分隔符。

123(abc

但是，在下面的文本中，我得到 123 作为整数，然后得到 abc 作为标识符。但实际上这是无效的，因为没有分词器是否应该检查分隔符

123abc(

并报告错误？如果是，分词器应该在发现无效标记后从哪里继续读取？

或者分词器应该简单地返回 123 作为整数和 abc作为标识符并让解析器检测错误？

原文

I am trying to hand code a tokenizer. I keep on reading the characters which can be part of a token. For example an integer can only contain digits. So in the below text I keep on reading the characters until I find a non-digit character. So I get 123 as the token. Next I get ( as the token, and then abc as identifier. This is fine as ( is a delimiter.

123(abc

However, in the below text I get 123 as integer and then abc as identifier. But actually this in not valid since there is no delimiter between them.

123abc(

Should the tokenizer check for delimiters and report an error? If yes what tokens should be returned and where should the tokenizer continue reading from after an invalid token is found?

Or should the tokenizer simply return 123 as integer and abc as identifier and let the parser detect the errors?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

窝囊感情。 2024-12-20 20:03:09

通常，分词器（或词法分析器）不执行有效语法检查。

词法分析器的作用是将输入拆分为标记，然后可以通过解析器将其转换为语法树。因此，执行此类检查通常是解析器的工作。

回复收藏 0 原文

旧人哭 2024-12-20 20:03:09

这在某种程度上是一个灰色地带，但大多数手工编码的词法分析器只是进行标记化，并让解析器决定标记流是否有意义。

回复收藏 0 原文

背叛残局 2024-12-20 20:03:09

如果“123abc”是无效标记，那么您应该在发现它后立即处理它，因为它与标记的定义方式直接相关，而不是它们彼此交互的方式（这将是词法分析器的工作）。这是一个拼写错误，而不是与语法相关的错误。

有多种方法可以解决这个问题：

您可以中止解析并抛出一些异常，让调用者没有令牌或只有您在此之前已成功解析的令牌。这将为您节省任何“恢复”逻辑，并且可能足以满足您的用例。不过，例如，如果您正在解析语法突出显示的内容，这可能还不够，因为您不希望所有剩余代码看起来都未解析。
示例：如果不需要处理格式错误的标记，则符合标准的 XML 解析器可以使用此方法来处理致命错误，只需吐出一个基本错误并退出。
或者，您可以插入一个“错误”标记，其中包含有关错误性质的正确元数据，然后跳到下一个有效标记。
您可能需要在词法分析器中使用启发式方法来优雅地处理错误标记，并在嵌套表达式中发现错误标记时找到如何解释进一步的标记（例如，您是否应该认为表达式已经结束？寻找结束语）令牌？等）。
无论如何，这种方法将允许使用错误标记来显示有关遇到的错误的位置和性质的精确信息（想想 GUI 中的内联错误报告）。