Java文件解析工具包设计，快速文件编码完整性检查

发布于 2024-08-20 04:14:31 字数 1015 浏览 4 评论 0原文

（免责声明：在提问之前我查看了这里的许多帖子，我发现这个特别有帮助，我只是想从你们那里寻求一点健全性检查（如果可能的话））

大家好，

我有一个内部Java产品，我为处理加载数据文件而构建了它到数据库（又名 ETL 工具）。我已经为 XSLT 转换预先准备好阶段，并在原始文件中执行诸如模式替换之类的操作。输入文件可以是任何格式，它们可以是平面数据文件或 XML 数据文件，您可以配置加载的特定数据源所需的阶段。

到目前为止，我一直忽略文件编码的问题（我知道这是一个错误），因为一切都工作正常（主要是）。然而，我现在遇到了文件编码问题，长话短说，由于阶段可以配置在一起的方式的本质，我需要检测输入文件的文件编码并使用以下命令创建一个 Java Reader 对象：适当的论据。我只是想在深入研究一些我无法声称完全理解的内容之前与大家进行快速的理智检查：

采用 UTF-16 的标准文件编码（我不排除将来加载双字节字符） ) 对于我的工具包中每个阶段输出的所有文件
使用 JUniversalChardet 或 jchardet 嗅探输入文件编码
使用 Apache Commons IO 库为所有阶段创建标准读取器和写入器（我是你认为这没有类似的编码嗅探 API 吗？）

你在我概述的方法中看到任何陷阱/有任何额外的智慧可以提供吗？

有什么方法可以让我确信与使用现有方法加载的任何数据向后兼容，让 Java 运行时决定 windows-1252 的编码？

提前致谢，

-詹姆斯

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

早乙女 2024-08-27 04:14:31

对于平面字符数据文件，任何编码检测都需要依赖统计和启发式（例如 BOM 的存在），或字符/模式频率），因为有些字节序列在多种编码中都是合法的，但映射到不同的字符。

XML 编码检测应该更简单，但这当然是可能的创建模糊编码的 XML（例如，通过省略标头中的编码）。

使用编码检测 API 向用户指示错误概率可能比依赖他们作为决策者更有意义。

当您在 Java 中将数据从 byte 转换为 char 时，您正在从编码 X 转码为 UTF-16(BE)。发送到数据库的内容取决于您的数据库、其 JDBC 驱动程序以及您配置列的方式。这可能涉及从 UTF-16 转码为其他内容。假设您不更改数据库，现有的角色数据应该是安全的；如果您打算解析 BLOB，您可能会遇到问题。如果您已经解析了以不同编码编写的文件，但将它们视为另一种编码，则损坏已经发生 - 没有灵丹妙药可以解决这个问题。如果您需要将数据库的字符集从“ANSI”更改为 Unicode，可能会得到痛苦。

尽可能采用 Unicode 是个好主意。这可能不可能，但更喜欢可以使编码明确的文件格式 - 例如 XML（这使得编码变得容易）或 JSON（强制使用 UTF-8）。