现在网页采集都用啥技术?
做舆情分析的项目,做了一年了。
网页采集从最初的httpclient + jsoup,每个人负责几个网站,刀耕火种,挖煤一般的一个网站一个网站开发。
后来,对这种工作做了些自动化的提升,每个网站可以配置多个css选择器,比如 div.title 是标题, p.wrap_content 是正文等。只不过有些网站的内容写在js里,或者各种奇怪的方式还是无法满足。
如今又要采集评论,实在是有点恶心的感觉。是不是我用的技术太落后了,似乎听过有基于视觉的网页分析,太高大上了。不知道大家是否了解相关的好用滴技术给详细地分享一下下?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(10)
这要是个位数还可以,再多的话,后期工作量太大。
可以参照搜索引擎的爬虫抓取
curl
这个维护累死人
如果你是定向爬虫,就只能自己这么干,没办法的事.在怎么高级的东西,到最后你还是会遇到更多的问题,而且别人的框架你也改不动...还是自己httpclient+jsoup吧.比较靠谱.自己适当的包装下就行了.
这种活应该属于损阴德的吧
Python的urllib2等等 http://www.xuyukun.com
Jsoup还有在用么?见过的一些做爬虫的都是用python或者一些开源框架!
好相似的经历,做这种活的确要做吐
没有过时的技术,只有不断变更的需求
JSOUP 比较普遍。