想从网页中提取标签,哪中方法比较合适,求指点?
我想对诸如html、xml等网页文件进行处理,只保留标签及标签名以及属性,文本和注释均不要,我也看了好多包诸如htmlparse、jsoup、sax、dom4j等,不知道采用哪种方法比较好做,求指点,谢谢!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我想对诸如html、xml等网页文件进行处理,只保留标签及标签名以及属性,文本和注释均不要,我也看了好多包诸如htmlparse、jsoup、sax、dom4j等,不知道采用哪种方法比较好做,求指点,谢谢!
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(10)
java -Xmx1024m 这样来运行,应该不内存不够了吧
还是不行啊!
搞那么大的HTML,继续加大,要不就是哪里出问题了
如何利用jsoup把标签中的属性全部删除?谢谢
我利用Jsoup和正则表达式写了个程序,可以删除注释和文本,但是当网页大于10MB时就会出现内存溢出的错误,不知道为什们,我的程序是:
正则很强大,不过起来写起来很麻烦额
提取信息的话,正则强大。
正则
我利用Jsoup和正则表达式写了个程序,可以删除注释和文本,但是当网页大于10MB时就会出现内存溢出的错误,不知道为什们。
jsoup 最牛X