用htmlparser提取html文件中的所有正文信息
@hebeijpp 你好,想跟你请教个问题:
您好请问下,用htmlparser提取正文您是怎么搞定的,我用stringBean但是很多script标签删不掉,尤其是当script标签里面包含其他标签代码的时候,求助啊~~
下面这段是我测试时一直删除不成功的一个例子,<script>XXX</script> 之间的内容无法删除
<script> (function(){ /** * @description get a Max length for text, cut the long words * @author zemzheng **/ var _dom = jQuery('.text'), _html0 = _dom.html(); _em = jQuery('<p></p>').html('a').css({display:'inline'}), _init = function(){ _em.appendTo(_dom); var _html = _html0, _max = Math.floor( _dom.width() / _em.width() ), _reg = new RegExp('[a-z1-9]{' + _max + ',}', 'ig'); _em.remove(); _html = _html.replace(/>[^<]+</g,function(txt){ return txt.replace(_reg, function(str){ var _str = str, result = [] while(_str.length > _max){ result.push( _str.substr(0, _max) ); _str = _str.substr(_max); } result.push(_str); return result.join('<br/>'); }); }); _dom.html(_html); //console.log(_dom.html()); }; jQuery(window).on('resize', _init).trigger('resize'); })(); </script>
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
用jsoup
用jsoup