当前位置：文江博客话题详情

python采集百度新闻的原理是什么?

发布于 2022-09-03 01:07:15 字数 128 浏览 30 评论 0

火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?

或是有高人说下实现的原理是多少?

比如步骤?

或是如何用python来实现,可以举个简单的例子

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

稀香 2022-09-10 01:07:15

图片描述
来源地址：http://www.cnblogs.com/jasondan/p/3497757.html

回复收藏 0

风柔一江水 2022-09-10 01:07:15

比较针对性的，可以使用p，article这些标签来简单判断。如果需要普遍一点的，可以对采集的网页数据进行分析，比如写一个算法计算中文（非标签文字）的密集性来判断是不是正文。具体没做过，但是思路基本是这样。

回复收藏 0

聊慰 2022-09-10 01:07:15

HTTP协议模拟,(通常用request,urllib2模块)
信息提取(由于HTML文档特殊性,一般会用xpath,beautifulsoup)

回复收藏 0

~没有更多了~

关于作者

離殇

暂无简介

文章

25 人气

关注发私信

饮湿

文章 0 评论 0

关注

明月

文章 0 评论 0

关注

02

文章 0 评论 0

关注

hs1283

文章 0 评论 0

关注

风向决定发型

文章 0 评论 0

关注

落花浅忆

文章 0 评论 0

友情链接

文江博客

python采集百度新闻的原理是什么?

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

python采集百度新闻的原理是什么?

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。