当前位置：文江博客话题详情

Java中检测RTF文档的编码

发布于 2024-08-16 15:16:18 字数 517 浏览 6 评论 0原文

我的 Java 程序使用 RTFEditorKit 对 RTF 文件进行文本提取。某些 RTF 文件包含西里尔字符（俄语），根据 RTF 版本，提取的文本要么正常，要么包含乱码。当它是乱码时，我可以使用它来获取正常文本：

String text = ... // extracted text

String demodText = new String(text.getBytes("ISO-8859-1") ), "cp1251");

现在的问题是我找不到一种方法来自动检测文件的编码，即提取的文本是否必须解码。有人知道该怎么做吗？提前致谢！

编辑：在RTF文件的第一行中，我看到一些看起来像编码的东西：

我得到乱码的文件：{\ rtf1 \ ansi \ ansicpg1251 \ deff0 \ deflang1049
文本正常的文件：{\ rtf1\ansi\ansicpg1251\deff0

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一个人的旅程 2024-08-23 15:16:18

我不相信文件本身有编码。来自维基百科页面：

RTF 是一种 8 位格式。那会
限制为 ASCII，但 RTF 可以编码
通过转义超出 ASCII 的字符
序列。字符转义是
有两种类型：代码页转义和
Unicode 转义。在代码页中
转义符，两个十六进制数字
后面的撇号用于
表示取自 a 的字符
Windows 代码页。例如，如果
指定 Windows-1256 的控制代码
存在，序列 \'c8 将
编码阿拉伯字母 beh (a)。
如果需要 Unicode 转义，则
使用控制字 \u，后跟一个
16 位有符号十进制整数给出
Unicode 代码点编号。

所以我怀疑您必须自己提取文本，然后使用上述规则进一步解析。

回复收藏 0 原文

谎言 2024-08-23 15:16:18

RTF 文件以两个控制序列开头，第一个控制序列指定 RTF 版本（不是标准的，但几乎总是 cs \rtf1），第二个指定字符集，即一个\ansi（通常）、\mac、\pc 或 pca（几乎从未遇到过）。紧接着，可以指定 Unicode 代码页来修改由 \ansicpg 给出的默认字符解释。

我找不到关于此的大量文档。尝试查看 http://msdn.microsoft.com/ en-us/library/aa140301(office.10).aspx，AbiWord 开发者邮件列表中的好心人花费了大量时间来破译各种 RTF 规范。