如何让 SAXParser 忽略转义码

发布于 2024-12-25 04:41:35 字数 230 浏览 6 评论 0原文

我正在编写一个Java程序来读取XML文件，实际上是一个XML plist格式的iTunes库。我已经设法绕过了这种格式遇到的大多数障碍，除非遇到包含 & 的文本。 XLM 文件将此与符号表示为 &，我只能设法读取任何特定文本部分中 & 后面的文本。

有没有办法禁用转义码检测？我正在使用 SAXParser。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

总以为 2025-01-01 04:41:35

你想做的事情有些可疑。

如果您尝试解析的文件格式仅包含与号 (&) 字符，那么它就不是格式良好的 XML。 & 符号在格式正确的 XML 中表示为字符实体（例如 &）。

如果它确实应该是真正的 XML，那么写入/生成该文件的任何内容都存在错误。
如果它不应该是真实的 XML（即那些 & 符号不是错误），那么您可能不应该尝试使用 XML 解析器来解析它。

啊，我明白了。 XML 实际上已正确编码，但您没有获得正确的 SO 标记。

看起来您真正的问题是您的 characters(...) 回调是为 & 之前的文本单独调用的，对于（解码的) &，最后是 & 之后的文本。您只需将文本块重新连接在一起即可解决此问题。

ContentHandler.characters() 表示：

“解析器将调用此方法来报告每个字符数据块。SAX 解析器可能会在单个块中返回所有连续的字符数据，也可能会将其拆分为多个块......” .

回复收藏 0 原文

此岸叶落 2025-01-01 04:41:35

这可能不是转义字符的最佳通用解决方案，但我只需要考虑新行，因此很容易检查 \n。

您可以检查反斜杠 \ 仅检查所有转义字符或在您的情况下 &，尽管我认为其他人会提供更优雅的解决方案。

@Override
public void characters(char[] ch, int start, int length) 
{
    String elementData = new String(ch, start, length);
    boolean elementDataContainsNewLine = (elementData.indexOf("\n") != -1);

    if (!elementDataContainsNewLine) 
    {
        //do what you want if it is no new line
    }
}

It's probably not the best general solution for escape characters, but I only had to take into account new lines so it was easy to just check for \n.

You could check for the backslash \ only to check for all escape characters or in your case &, although I think others will come with more elegant solutions.

@Override
public void characters(char[] ch, int start, int length) 
{
    String elementData = new String(ch, start, length);
    boolean elementDataContainsNewLine = (elementData.indexOf("\n") != -1);

    if (!elementDataContainsNewLine) 
    {
        //do what you want if it is no new line
    }
}

回复收藏 0 原文

妳是的陽光 2025-01-01 04:41:35

您有摘录给我们吗？文件是 itunes 生成的吗？如果是这样，对我来说这听起来像是 iTunes 中的一个错误，忘记了正确编码 & 符号。我不会感到惊讶：他们显然一开始就没有获得 XML，他们的架构 [key][value]一定会让 XML 发明者感到恶心。

您可能想使用不同的、更强大的解析器。只要文件格式良好，SAX 就很棒。但我不知道 dom4j 和 jdom 有多强大。尝试一下吧。对于 python，我知道我会推荐 ElementTree 或 BeautifulSoup ，它们非常强大。

另请查看 http://code.google.com/p/xmlwise/我发现在 stackoverflow 中提到了（你使用过搜索吗？）。

更新：（根据更新的问题）您需要了解 XML 中实体的角色，从而了解 SAX 中的角色。它们默认是一个单独的节点，就像文本节点一样。因此，您可能需要将它们与相邻的文本节点连接起来以获得完整的值。您在解析器中使用 DTD 吗？使用正确的 DTD（带有实体定义）可以帮助解析很多内容，因为它可以包含从实体（例如 &）到它们代表的字符 & 的映射，并且解析器也许能够为您进行合并。（至少我喜欢用于大文件的 python XML-pull 解析器在具体化子树时会这样做。）

回复收藏 0 原文

阳光下慵懒的猫 2025-01-01 04:41:35

我正在使用 SAXParser 解析下面的字符串

<xml>
<FirstTag>&<</FirstTag>
<SecondTag>test</SecondTag>
</xml>
I want the same string to be retained but it is getting converted to below
<xml>
<FirstTag>&<</FirstTag>
<SecondTag>test</SecondTag>
<xml>
Here is my code. How can I avoid this being converted?
SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser saxParser = factory.newSAXParser();
        MyHandler handler = new MyHandler();  
        values = handler.getValues();
        saxParser.parse(x, handler);

I am parsing the below string using SAXParser

<xml>
<FirstTag>&<</FirstTag>
<SecondTag>test</SecondTag>
</xml>
I want the same string to be retained but it is getting converted to below
<xml>
<FirstTag>&<</FirstTag>
<SecondTag>test</SecondTag>
<xml>
Here is my code. How can I avoid this being converted?
SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser saxParser = factory.newSAXParser();
        MyHandler handler = new MyHandler();  
        values = handler.getValues();
        saxParser.parse(x, handler);

回复收藏 0 原文

~没有更多了~