如何为 HtmlUnit XML 解析器定义新实体?
我遇到了 HtmlUnit 解析器的问题,我试图从网站获取一些 XML(使用网站的 API),对生成的 XML 进行快速解析,然后将 XML 保存到文件中(全部在权利范围内) API 的)。 (示例内容)
不幸的是,网站在某些请求的页面中返回了一个实体 ¿
,虽然这是一个有效的 HTML 实体,但 HtmlUnit 在解析过程中抛出异常并显示消息:
实体“iquest”已被引用,但未声明。
如何将 iquest
定义为有效实体?
I'm running into an issue with the HtmlUnit parser where I'm trying to grab some XML from a website (using the website's API) do a quick parse of the resulting XML and then save the XML to a file (all within the rights of the API). (sample content)
Unfortunately the website returns an entity ¿
in some of the requested pages, and while this is a valid HTML entity HtmlUnit is throwing an exception during the parse with message:
The entity "iquest" was referenced, but not declared.
How do I define iquest
as a valid entity?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您无法定义 ¿,除非编辑您收到的数据(数据不是 XML,因为任何验证器都会显示 我在 google 上找到的第一个
该网站不提供有效的 XML,因此最好的方法是要求它修复 XML。
如果失败,则要么搜索并替换 ¿,要么添加定义实体的 DOCTYPE ¿。
You can't define ¿ except by editing the data you received (the data is not XML as any validator will show e.g. first one I found on google
The site is not serving valid XML so the best wayis ask it to fix the XML.
When that fails then either so a search and replace on ¿ or add a DOCTYPE that defines the entity ¿.