关于蜘蛛,如何提高抓取asp.net网站速度?
因为业务需要,需要经常抓取一些网站内部的数据,我们的程序通过模拟浏览器登陆,然后抓取,对于PHP、JAVA、ASP程序的网站基本不存在问题,最慢的也能保持一个页面大概25秒左右,基本满足需要,但少部分ASP.NET的网站由于数据的列表都被记录到__VIEWSTATE
里,我们在抓取时,必须POST过去一个巨大无比的__VIEWSTATE
变量,而带回页面的数据也含有一个巨大无比的__VIEWSTATE
,而且没有经过gzip压缩,导致ASP.NET网站的速度基本都是巨慢无比,大概一个页面时间是10分钟左右,实在是太慢了,所有想请教,各位有没有办法能加快抓取asp.net网站的速度,如果我采用分布式,对于ASP.NET每个session抓取一部分,然后各自把抓取到的数据拼合在一起,是否会奏效?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论