网页抓取时,如何判断一个页面是导航页面,还是正文页面
在做网页抓取的时候 一般我们需要的是正文内容而不是导航页面的内容,那么该如何判断一个页面是导航页面,还是正文页面
例如 http://sky.news.sina.com.cn/ 这是一个导航页面
http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面
可以通过url进行判断我知道的,能不能通过分析页面源代码进行判断啊,比如说正文字数,主要区域链接个数等等
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
。。。。。。你确定?
没有什么好办法,自己根据网页内容匹配吧