如何使用 Java 和 SAX 解析带有偶尔 XML 标记的纯文本文件？

发布于 2025-01-02 23:45:16 字数 486 浏览 6 评论 0原文

我有一个来自服务器的相当大的日志文件，其中包含纯文本。服务器记录它所做的每一件事，有时它会打印我有兴趣解析的 xml 标签。举个例子：

-----------log file-------------
bla bla bla random text
<logMessage>test Message</logMessage>
some more random server output
<logMessage>some other message</logMessage>
bla bla bla
end of log file

我只想从 << 中提取数据日志消息>标签并忽略其余部分。我正在使用 Java 和 SAX，但 SAX 解析器要求文件内容严格采用 XML 格式，并且它无法处理这种类型的文件。有没有办法告诉 SAX 忽略/忽略文件不是格式良好的 XML 的事实？还有什么选择呢？逐行读取文件并查找标签？ :(

原文

I have a rather large log file from a server which contains plain text. The server logs every thing it does and occasionally it prints xml tags which I am interested in parsing. To give you an example:

-----------log file-------------
bla bla bla random text
<logMessage>test Message</logMessage>
some more random server output
<logMessage>some other message</logMessage>
bla bla bla
end of log file

I just want to extract the data from the < logMessage > tags and ignore the rest. I am using Java and SAX, but the SAX parser expects the content of the file to be strictly XML formatted and it cannot handle this type of file. Is there a way to tell SAX to ignore/overlook the fact that the file is not a well formatted XML?
What's the alternative? read the file line by line and look for the tags? :(

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

回眸一遍 2025-01-09 23:45:16

为了简单起见，我会选择逐行读取文件并查找和标记。请注意，您可以创建一个此类通用解析器，它采用委托解析器并向其提供类似 SAX 的事件。（可能有用，具体取决于重写解析器的工作量，现在基于 SAX 的解决方案结果证明不起作用。）

编辑：如果您对多种元素感兴趣，则委托方法也很有用。如果它们碰巧具有复杂（嵌入）的 XML 层次结构，您甚至可以将开始和结束标记之间的所有字符整理到缓冲区中，然后将该缓冲区提供给真实 SAX 解析器。在大多数情况下，这可能有点过头了，但同样，如果您的日志本质上包含 XML 转储，那么它可能比尝试自己解析所有日志更合适。

回复收藏 0 原文