当前位置：文江博客话题详情

为 Java 应用程序筛选格式不良的 XHTML 页面的最佳方法是什么

发布于 2024-07-16 06:54:39 字数 181 浏览 11 评论 0原文

我希望能够从网页中获取内容，尤其是标签及其中的内容。我尝试过 XQuery 和 XPath，但它们似乎不适用于格式错误的 XHTML，而 REGEX 则很痛苦。

有没有更好的解决办法。理想情况下，我希望能够请求所有链接并返回 URL 数组，或者请求链接文本并返回带有链接文本的字符串数组，或者请求所有粗体文本ETC。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

终难遇 2024-07-23 06:54:39

通过 JTidy 之类的东西运行 XHTML，这应该会返回有效的 XML。

回复收藏 0 原文

左耳近心 2024-07-23 06:54:39

您可能需要查看 Watij。我只使用了它的 Ruby 表弟 Watir，但使用它我能够加载网页并以您描述的方式请求该页面的所有 URL。

它非常容易使用 - 它实际上会启动一个网络浏览器并以良好的形式返回信息。 IE 支持似乎最好，但至少 Watir 也支持 Firefox。

回复收藏 0 原文

扮仙女 2024-07-23 06:54:39

我当时在使用 JTidy 时遇到了一些问题。我认为这与未关闭的标签有关导致 JTidy 失败。我不知道现在是否修复了。我最终使用了 TagSoup 的包装器，尽管我不这样做不记得确切的项目名称。还有 HTMLCleaner。

回复收藏 0 原文

想挽留 2024-07-23 06:54:39

我使用过http://htmlparser.sourceforge.net/。它可以解析格式不良的 html，并可以轻松地提取数据。

回复收藏 0 原文

~没有更多了~

关于作者

初心

暂无简介

文章

24 人气

关注发私信

泪是无色的血

文章 0 评论 0

关注

yriii2

文章 0 评论 0

关注

1649543945

文章 0 评论 0

关注

g红火

文章 0 评论 0

关注

嘿哥们儿

文章 0 评论 0

关注

旧城烟雨

文章 0 评论 0

友情链接

文江博客

为 Java 应用程序筛选格式不良的 XHTML 页面的最佳方法是什么

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

泪是无色的血

yriii2

1649543945

g红火

嘿哥们儿

旧城烟雨

友情链接

为 Java 应用程序筛选格式不良的 XHTML 页面的最佳方法是什么

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

泪是无色的血

yriii2

1649543945

g红火

嘿哥们儿

旧城烟雨

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。