当前位置：文江博客话题详情

现在网页采集都用啥技术？

发布于 2021-11-26 11:31:27 字数 310 浏览 654 评论 10

做舆情分析的项目，做了一年了。

网页采集从最初的httpclient + jsoup，每个人负责几个网站，刀耕火种，挖煤一般的一个网站一个网站开发。

后来，对这种工作做了些自动化的提升，每个网站可以配置多个css选择器，比如 div.title 是标题， p.wrap_content 是正文等。只不过有些网站的内容写在js里，或者各种奇怪的方式还是无法满足。

如今又要采集评论，实在是有点恶心的感觉。是不是我用的技术太落后了，似乎听过有基于视觉的网页分析，太高大上了。不知道大家是否了解相关的好用滴技术给详细地分享一下下？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

温柔少女心 2021-12-01 14:32:17

这要是个位数还可以，再多的话，后期工作量太大。

可以参照搜索引擎的爬虫抓取

回复收藏 0

最偏执的依靠 2021-12-01 14:32:04

curl

回复收藏 0

执手闯天涯 2021-12-01 14:24:39

这个维护累死人

回复收藏 0

温柔少女心 2021-12-01 14:23:56

如果你是定向爬虫,就只能自己这么干,没办法的事.在怎么高级的东西,到最后你还是会遇到更多的问题,而且别人的框架你也改不动...还是自己httpclient+jsoup吧.比较靠谱.自己适当的包装下就行了.

回复收藏 0

恋你朝朝暮暮 2021-12-01 13:35:18

这种活应该属于损阴德的吧

回复收藏 0

爱你是孤单的心事 2021-12-01 10:10:11

Python的urllib2等等 http://www.xuyukun.com

回复收藏 0

蓝颜夕 2021-12-01 03:01:48

Jsoup还有在用么？见过的一些做爬虫的都是用python或者一些开源框架！

回复收藏 0

多彩岁月 2021-11-30 20:36:49

好相似的经历，做这种活的确要做吐

回复收藏 0

泛滥成性 2021-11-29 06:17:48

没有过时的技术，只有不断变更的需求

回复收藏 0

草莓味的萝莉 2021-11-28 06:35:01

JSOUP 比较普遍。

回复收藏 0

~没有更多了~

关于作者

感情旳空白

暂无简介

文章

2464 人气

关注发私信

友情链接

文江博客

现在网页采集都用啥技术？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

西西弗的石头怪

5397313

烟沫凡尘

一个破名字

萌︼了一个春

当爱已成负担

友情链接

现在网页采集都用啥技术？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（10）

关于作者

相关话题

热门标签

推荐作者

西西弗的石头怪

5397313

烟沫凡尘

一个破名字

萌︼了一个春

当爱已成负担

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。