当前位置：文江博客话题详情

流上字节的 Java 正则表达式替代方案

发布于 2024-11-05 03:59:18 字数 450 浏览 1 评论 0 原文

我的 XML 文件（以 UTF-8 编码）有两个问题：

其中一些（不是全部）包含字节顺序标记 EF BB BF
其中一些（不是全部）包含空字符00，分布在整个文件中。

这两个问题都阻止我使用 SAX 解析器解析 XML。我当前的方法是将文件读入字符串并使用正则表达式来提取这些字符并将字符串写回文件，效果很好。然而，我的文件非常大（数百兆字节），并且将文件读入字符串，每次调用replaceAll（）时都会创建相同大小的结果字符串，很快会导致java堆空间错误。

增加堆大小绝对不是一个长期的解决方案。我需要流式传输文件并即时提取所有这些字符。

关于有效的解决方案应该是什么样子有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

迷雾森÷林ヴ 2024-11-12 03:59:21

我只关注 BOM，发现空字节问题为时已晚。我仍然将其作为补充发布，以防有人仅对 BOM 有问题。请善待反对票。 :)

您可以使用支持 mark() 和 reset() 的 InputStream 读取前三个字节，读取第一个字节三个字节，如果不是 BOM，则重置：

InputStream in = new BufferedInputStream(
        new FileInputStream(new File("xmlfile.xml")));
in.mark(3);
byte[] maybeBom = new byte[] {
        (byte) in.read(), (byte) in.read(), (byte) in.read() };

if(!Arrays.equals(maybeBom, new byte[] { (byte) 0xEF, (byte) 0xBB, (byte) 0xBF })) {
    in.reset();
}

我使用 BufferedInputStream ，因为 FileInputStream 不支持 mark() 。

I only concentrated on the BOM, seeing the issue with the null bytes too late. I still post it as an addition in case someone has a problem with BOMs only. Please be kind with respect to downvotes. :)

You could read the first three bytes with an InputStream that supports mark() and reset(), read the first three bytes and reset if they were not a BOM:

InputStream in = new BufferedInputStream(
        new FileInputStream(new File("xmlfile.xml")));
in.mark(3);
byte[] maybeBom = new byte[] {
        (byte) in.read(), (byte) in.read(), (byte) in.read() };

if(!Arrays.equals(maybeBom, new byte[] { (byte) 0xEF, (byte) 0xBB, (byte) 0xBF })) {
    in.reset();
}

I use BufferedInputStream because FileInputStream does not support mark().

回复收藏 0 原文

百合的盛世恋 2024-11-12 03:59:19

我将继承 FilterInputStream 来在运行时过滤掉不需要的字节。

该任务应该相当简单，因为字节顺序标记可能只位于文件的开头（因此您只需要检查那里），并且可以通过简单的 == 比较轻松过滤空字节（不需要类似正则表达式的功能）。

这很可能还会提高性能，因为您不需要在重新读取之前将完整更正的文件写入磁盘。

回复收藏 0 原文

无语# 2024-11-12 03:59:19

为什么不在将数据读入 SAX 解析器时过滤数据呢？这样您就不需要重写该文件。您可以重写 FilterInputStream 的 read() 方法来删除不需要的字节。

我认为这就是@Joachim 所建议的。 ;)

回复收藏 0 原文

~没有更多了~

关于作者

云巢

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

流上字节的 Java 正则表达式替代方案

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

娇女薄笑

biaggi

xiaolangfanhua

rivulet

我三岁

薆情海

友情链接

流上字节的 Java 正则表达式替代方案

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

娇女薄笑

biaggi

xiaolangfanhua

rivulet

我三岁

薆情海

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。