现在网页采集都用啥技术?

发布于 2021-11-26 11:31:27 字数 310 浏览 654 评论 10

做舆情分析的项目,做了一年了。

网页采集从最初的httpclient + jsoup,每个人负责几个网站,刀耕火种,挖煤一般的一个网站一个网站开发。

后来,对这种工作做了些自动化的提升,每个网站可以配置多个css选择器,比如 div.title 是标题, p.wrap_content 是正文等。只不过有些网站的内容写在js里,或者各种奇怪的方式还是无法满足。

如今又要采集评论,实在是有点恶心的感觉。是不是我用的技术太落后了,似乎听过有基于视觉的网页分析,太高大上了。不知道大家是否了解相关的好用滴技术给详细地分享一下下?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(10

温柔少女心 2021-12-01 14:32:17

这要是个位数还可以,再多的话,后期工作量太大。

可以参照搜索引擎的爬虫抓取

最偏执的依靠 2021-12-01 14:32:04

    curl

执手闯天涯 2021-12-01 14:24:39

这个维护累死人

温柔少女心 2021-12-01 14:23:56

如果你是定向爬虫,就只能自己这么干,没办法的事.在怎么高级的东西,到最后你还是会遇到更多的问题,而且别人的框架你也改不动...还是自己httpclient+jsoup吧.比较靠谱.自己适当的包装下就行了.

恋你朝朝暮暮 2021-12-01 13:35:18

这种活应该属于损阴德的吧

爱你是孤单的心事 2021-12-01 10:10:11

Python的urllib2等等 http://www.xuyukun.com

蓝颜夕 2021-12-01 03:01:48

Jsoup还有在用么?见过的一些做爬虫的都是用python或者一些开源框架!

多彩岁月 2021-11-30 20:36:49

好相似的经历,做这种活的确要做吐

泛滥成性 2021-11-29 06:17:48

没有过时的技术,只有不断变更的需求

草莓味的萝莉 2021-11-28 06:35:01

JSOUP 比较普遍。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文