使用jpedal从html中提取超链接? --java

发布于 2024-12-08 12:22:08 字数 210 浏览 0 评论 0原文

java中的JPedal库通常用于将pdf转换为XML或HTML。但是,我需要知道我们是否可以使用 JPedal 库 API 从 HTML5 文档中提取数据并将其保存为 XML? 除此之外还有其他可能的替代方案吗?

另外,我正在尝试使用 Java 解析 HTML5 文档并将其存储在 XML 中。有没有什么好的解决方案可以找到特定的标签并从中呈现 XML?

请告诉我。谢谢。

JPedal library in java is usually used to convert pdf to XML or HTML. However, I needed to know if we could extract data from HTML5 document and save it to XML using JPedal library API?
Is there any other possible alternative to this?

Also , I am trying to parse HTML5 document using Java and store it in XML. are there any good solutions to find just specific tags and render an XML out of them?

Please do let me know . Thank you.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

悍妇囚夫 2024-12-15 12:22:08

有许多 Java HTML 解析器,但我建议使用 validator.nu 的 HTML5 解析器,可从此处下载: http://about.validator.nu/htmlparser/

由 HTML5 的主要主角之一、Mozilla 的 Henri Sivonen 编写,用于使用 HTML5 解析器算法,您不会找到更可靠的 HTML 解析器,它创建了一个真正的 DOM,可以使用标准 XML 工具进行操作,并使用以下命令查询超链接: X 路径。有一些示例说明如何使用 XSLT 转换以及如何获取创建的 DOM 的 XML 序列化。

There are a number of Java HTML parsers out there, but I recommend using the HTML5 parser from validator.nu available for download from here: http://about.validator.nu/htmlparser/.

Written to use the HTML5 parser algorithm by one of the main protagonists of HTML5, Henri Sivonen of Mozilla, you won't find a more reliable HTML parser and it creates a true DOM that can be manipulated using standard XML tools and queried for hyperlinks using XPath. There are examples of how to use XSLT transformations with it and how to get an XML serialization of the created DOM.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文