“标记化”处理文本文件时的文本部分

发布于 2025-01-05 20:43:36 字数 305 浏览 1 评论 0原文

我正在开发一个业余爱好项目,将现有的标记库移植到 C# / .NET 类库中。如果您熟悉 Markdown,它是一个类似的概念。

我的一个早期问题是,有一种语法可以标记文本的一部分,以阻止它被任何其他语法规则处理,我想对此提出一些建议。

我想到的一种方法是首先搜索这些部分,删除它们并用某种有意义的标记替换它们,运行其余的处理规则,然后作为最后一步,用它们代表的文本替换标记。

这对其他人来说是最有意义的吗?另外,您将如何生成标记,这样您就不会面临意外创建与现有文本匹配的标记的可能性?

任何帮助/建议表示赞赏!

I'm working on a hobby project to port an existing markup library into a C# / .NET Class Library. If you're familiar with Markdown, it's a similar concept.

One early question I have is that there is a syntax for marking a section of text to stop it from being processed by any of the other syntax rules, and I'd like some advice on this.

One method that occurs to me is to search for these sections first, remove and replace them with some sort of meaningful token, run the rest of the processing rules, and then as the last step, replace the tokens with the text they represent.

Is that what makes the most sense to others? Also, how would you generate the tokens such that you don't face the possibility that you might accidentally create a token that matches existing text?

Any help / advice appreciated!

pt

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

朱染 2025-01-12 20:43:36

为什么不使用合适的解析器生成器来创建您的分词器?

您可能可以在几个小时内使用 ANTLR 组合出一些东西。

Why not use a proper parser generator to create your tokenizer?

You could probably knock something together with ANTLR in a few hours.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文