Jsoup 功能强大的 JavaHTML 解析器

发布于 2019-10-24 22:24:25 字数 1428 浏览 1848 评论 0

Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup 遵循WHATWG HTML5规范,解析某些HTML带DOM中,和浏览器做相同的事情。

Jsoup特点

  • 可以解析通过URL、文件或字符串获取的HTML
  • 发现和提取数据,使用DOM遍历或CSS选择器
  • 操作HTML元素、属性、文本
  • 干净的用户提交的内容对安全的白名单,防止XSS攻击
  • 整洁的HTML输出

Jsoup被设计来兼容处理各种HTML代码,这意味着即使你的HTML代码不是完整的结构、或者是包含无效的标签,Jsoup都可以很好的解析,从最原始的数据作为来源,生成合适的DOM文档树。

Jsoup运行与Java 1.5及以上的版本。

在线示例

那维基百科的网页作为示例源数据,从新闻中的部分到一个列表中的元素选择标题:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

开放源代码

Jsoup是一个开放源代码的项目,遵循 MIT 协议开放,源代码托管在 GitHub

Jsoup 良好的可扩展性API 设计,你可以通过选择器的定义来开发出非常强大的HTML 解析功能。再加上jsoup 项目本身的开发也非常活跃,因此如果你正在使用Java ,需要对HTML 进行处理,不妨试试。

相关链接

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

关于作者

JSmiles

生命进入颠沛而奔忙的本质状态,并将以不断告别和相遇的陈旧方式继续下去。

0 文章
0 评论
84961 人气
更多

推荐作者

醉城メ夜风

文章 0 评论 0

远昼

文章 0 评论 0

平生欢

文章 0 评论 0

微凉

文章 0 评论 0

Honwey

文章 0 评论 0

qq_ikhFfg

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文