Jsoup 功能强大的 JavaHTML 解析器
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Jsoup 遵循WHATWG HTML5规范,解析某些HTML带DOM中,和浏览器做相同的事情。
Jsoup特点
- 可以解析通过URL、文件或字符串获取的HTML
- 发现和提取数据,使用DOM遍历或CSS选择器
- 操作HTML元素、属性、文本
- 干净的用户提交的内容对安全的白名单,防止XSS攻击
- 整洁的HTML输出
Jsoup被设计来兼容处理各种HTML代码,这意味着即使你的HTML代码不是完整的结构、或者是包含无效的标签,Jsoup都可以很好的解析,从最原始的数据作为来源,生成合适的DOM文档树。
Jsoup运行与Java 1.5及以上的版本。
在线示例
那维基百科的网页作为示例源数据,从新闻中的部分到一个列表中的元素选择标题:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn b a");
开放源代码
Jsoup是一个开放源代码的项目,遵循 MIT 协议开放,源代码托管在 GitHub 。
Jsoup 良好的可扩展性API 设计,你可以通过选择器的定义来开发出非常强大的HTML 解析功能。再加上jsoup 项目本身的开发也非常活跃,因此如果你正在使用Java ,需要对HTML 进行处理,不妨试试。
相关链接
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论