Java、JavaCC：如何解析BMP之外的字符？

发布于 2024-09-01 22:16:58 字数 989 浏览 14 评论 0原文

看一下NameStartChar的定义：

如果我正确解释这一点，最后一个范围 (#x10000-#xEFFFF) 超出了 Java 的 UTF16 范围 >char 类型。所以它一定是UTF32，对吗？因此，我需要根据此范围检查成对的 char，而不是单个 char，对吗？

我的问题是：

如何使用标准 Java 方法检查此类字符范围？
如何在 JavaCC 中定义这样的范围？
- JavaCC 抱怨 \u10000 和 \uEFFFF

谢谢！

注意： 别担心，我不会尝试编写自己的 XML 解析器。
编辑： 我正在编写一个解析器，它将检查来自其他（非 XML）文本格式的文本输入是否与有效的 XML 名称匹配。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蓝眸 2024-09-08 22:16:58

看一下 Character.toCodePoint(char, char) ，它会将代理对转换为全范围代码点。 String.codePointAt 可能对您也很有用。

字符和字符串中还有许多其他代理支持。要确切知道要调用哪些方法，我们需要了解您情况的具体细节。

回复收藏 0 原文

雨夜星沙 2024-09-08 22:16:58

我发现 http://www.fileformat.info/info/unicode /char/10000/index.htm 是一个了解 Unicode 字符的便捷站点。

例如，u+10000 和 u+10FFFF 是

String first = "\uD800\uDC00"; // u10000
String last = "\uDBFF\uDFFF"; // u10FFFF

I've found http://www.fileformat.info/info/unicode/char/10000/index.htm to be a handy site for learning about Unicode characters.

For example, u+10000 and u+10FFFF are

String first = "\uD800\uDC00"; // u10000
String last = "\uDBFF\uDFFF"; // u10FFFF

回复收藏 0 原文

~没有更多了~

关于作者

蓝梦月影

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

Java、JavaCC：如何解析BMP之外的字符？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

Java、JavaCC：如何解析BMP之外的字符？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。