当前位置：文江博客话题详情

character-encoding internationalization javacc

如何在JavaCC中支持西里尔字母？

发布于 2024-11-03 00:06:20 字数 1639 浏览 7 评论 0原文

我可以为 *.jjt 文件制作西里尔字母标记吗？

例如，jjt 中给出了标记：

TOKEN : /* LITERALS */
{
    < TEST: "тест" >
|   < DEVELOP: "разработка" >
}

但是 jj 文件中的标记看起来很糟糕：

TOKEN : /* LITERALS */
{
    < TEST: "\u0421\u201a\u0420\u00b5\u0421\u0403\u0421\u201a" >
|   < DEVELOP: "\u0421\u0402\u0420\u00b0\u0420\u00b7\u0421\u0402\u0420\u00b0\u0420\u00b1\u0420\u0455\u0421\u201a\u0420\u0454\u0420\u00b0" >
}

使用以下选项：

options {
  JDK_VERSION = "1.6";
  UNICODE_INPUT = true;
  JAVA_UNICODE_ESCAPE = false;
  TRACK_TOKENS=true;
  STATIC=false;
}

如果我在她的类的帮助下进行 Unicode：

class GetUnicode {
  public static void main(String[] args) {
      if (args.length < 1) return;
      for (String input: args) {
        for (int index = 0; index < input.length(); ++index) {
            final char c = input.charAt(index); 
            final String s = String.format ("\\u%04x", (int)c);
            System.out.print(s);
        }
        System.out.println();
      }
  }
}

程序启动后：

$ java GetUnicode тест разработка                                                                                                                                                                                       
\u0442\u0435\u0441\u0442
\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0430

结果，我可以看到 unicode字符串不匹配。例如：

"\u0442\u0435\u0441\u0442" != "\u0421\u201a\u0420\u00b5\u0421\u0403\u0421\u201a"

您知道为什么会发生这种情况吗？

PS：这个bug只发生在Windows操作系统下。

Can I make cyrillic tokens for *.jjt file?

For exampe tokens are given in jjt:

TOKEN : /* LITERALS */
{
    < TEST: "тест" >
|   < DEVELOP: "разработка" >
}

but the tokens in jj file look terrible:

TOKEN : /* LITERALS */
{
    < TEST: "\u0421\u201a\u0420\u00b5\u0421\u0403\u0421\u201a" >
|   < DEVELOP: "\u0421\u0402\u0420\u00b0\u0420\u00b7\u0421\u0402\u0420\u00b0\u0420\u00b1\u0420\u0455\u0421\u201a\u0420\u0454\u0420\u00b0" >
}

Use the following options:

options {
  JDK_VERSION = "1.6";
  UNICODE_INPUT = true;
  JAVA_UNICODE_ESCAPE = false;
  TRACK_TOKENS=true;
  STATIC=false;
}

If I do Unicode with the help of her class:

class GetUnicode {
  public static void main(String[] args) {
      if (args.length < 1) return;
      for (String input: args) {
        for (int index = 0; index < input.length(); ++index) {
            final char c = input.charAt(index); 
            final String s = String.format ("\\u%04x", (int)c);
            System.out.print(s);
        }
        System.out.println();
      }
  }
}

After the start of the program:

$ java GetUnicode тест разработка                                                                                                                                                                                       
\u0442\u0435\u0441\u0442
\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u043a\u0430

As a result, I can see that the unicode strings do not match.
For example:

"\u0442\u0435\u0441\u0442" != "\u0421\u201a\u0420\u00b5\u0421\u0403\u0421\u201a"

Do you have ideas why this happens?

PS: This bug occurs only under Windows OS.

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

凶凌 2024-11-10 00:06:20

.jj 文件是使用转义的西里尔字符 (Unicode) 生成的。这是一件好事，因为它们不会因为使用错误的编码而被误读。你不应该担心它；令牌管理器将正常工作。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文