如何获取html中的文本
<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Dom遍历</title> </head> <body> ####1 <div id="frm0"> ####2 <div id="frm1"> ####3 <div id="frm2"> </div> ####4 </div> </div> </body> </html>
将####1、2、3、4...这些位置的文本单独提取出来,javascript可以么,或者有什么其他语言解析库支持
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(13)
最简单的办法是 在不影响布局的情况下加两个标签 用jquery
html解析的类库。htmlparser等等
用 jquery 比较好办到。。。
先获得 from0 的 删掉 from0 在获得
from1 的 删掉 from1 将 from2 替换 成特殊字符 , 获得 body 下的 字符,用 特殊字符 分割
看来只能自己遍历拼接
能不能根据节点获取其xpath和csspath,最好是不用java的,好像jquery可以
能不能根据节点获取其xpath和csspath
jsoup提供了传统的DOM 方式的元素解析,下面是个例子:
得到全部的内容,用正则去掉html标签。。。
jsoup可以单独解析,有类似javascript的方法获取节点数据,很易用,建议使用
java库jsoup不是可以解析html吗?jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
$(‘body’).text() 会提取出全部
如果dom有规律的话你可以遍历分别提取
正则表达式 去掉html标签