自动将 Unicode 字符映射到类似的 EBCDIC 1047 字符

发布于 2024-11-29 15:15:42 字数 286 浏览 1 评论 0 原文

我正在尝试对包含目标编码不支持的字符的字符串进行编码 (CP 1047) 。

是否有一种标准/通用/简单的方法将这些字符映射到 cp1047 等效项?

例如,文本有一个奇特的双引号字符 (),我想将其转换为直双引号 (")。

显然我可以执行替换在我的代码中,但是他们有更好的方法吗?是否有我不知道的开源工具或API?

I'm trying to encode a string that has characters not supported by the target encoding (CP 1047).

Is there a standard/common/easy way of mapping those characters to a cp1047 equivalent?

For example, the text has a fancy double quote character () and I want to convert it to the straight double quote (").

Obviously I could just do the replace in my code, but is their a better way? Is there an open source tool, or API out there that I don't know about?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

听不够的曲调 2024-12-06 15:15:42

如果你想用 EBCDIC (CP 1047) 编码 Unicode 字符,那么(显然)有 UTF-EBCDIC< /a> (尽管我不知道有任何现有工具可以转换为它)。

或者,我会考虑使用非标准形式的 百分比编码XML/HTML 编码。这两种编码中的任何一种都可能有现有的编码工具(例如 Commons Lang StringEscapeUtils)。

最后,如果您只想将扩展字符“映射”到 CP 1047 空间,那么我想您只能逐个字符扫描源字符串并从 MapMap (或 Map),只要您事先知道必须处理的所有扩展字符及其所需的等效字符/替换字符。

If you want to encode Unicode characters in EBCDIC (CP 1047), then (apparently) there's UTF-EBCDIC (though I don't know of any existing tools that can convert to that).

Alternatively, I would look into using the non-standard form of Percent-encoding or XML/HTML encoding. Either one of these two encodings would probably have existing tools for encoding (such as Commons Lang StringEscapeUtils).

Finally, if you just want to 'map' extended characters into the CP 1047 space then I guess you're left with scanning the source string character by character and building the result string from a Map<Char, Char> (or Map<Char, String>), so long as you know beforehand all the extended characters you have to deal with and their desired equivalents/replacements.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文