当前位置：文江博客话题详情

有关Selenium做爬虫方式的资源消耗的问题

发布于 2021-12-03 13:59:24 字数 502 浏览 817 评论 6

@黄亿华你好，想跟你请教个问题：

我们采用了selenium的webdriver作为引擎，进行网页数据的抓取、以及后续的解析、数据持久化。webdriver采用chromedriver。

为了到达抓取的目标页面，需要有复杂的交互，因此，选webdriver，为开发过程提供了便捷。

实际操作过程中，一台8G内存的window机器，实际可同时打开的webdriver的数量并不多，大概100~200个，而且，会出现chrome浏览器崩溃，windows内存耗尽等问题。导致，单机的并发处理能力并不乐观。

考虑到单独打开一个chrome页面，所消耗的cpu、内存较大，请问有没有什么好的建议，或者，你所采用的方式有没有其他好的解决方案？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

执手闯天涯 2021-12-08 15:07:54

楼主最后是怎么处理的哦？求指教

回复收藏 0

倚栏听风 2021-12-08 13:46:43

如果不是一定要用selenuim，建议你使用httpclient，本质上都是get和post请教

回复收藏 0

感情旳空白 2021-12-08 10:39:10

引用来自“hysjw”的评论

没有办法必须用webdriver 否则会有一些问题单纯的类库无法完美的模拟出AJAX加载的内容你只能从减少webdriver的内存占用入手分布式其实是一种比较好的方案

回复收藏 0

清风夜微凉 2021-12-08 05:42:40

回复收藏 0

夜司空 2021-12-08 04:34:20

对内存资源的占用是什么情况？平均一个driver占用内存多少？

回复收藏 0

绝情姑娘 2021-12-07 22:20:04

我们用的是火车浏览器(locoyposter)，内核是火狐，用单机或分布式的方式来运行。效果还行。

回复收藏 0

~没有更多了~

关于作者

筱果果

暂无简介

0 文章

0 评论

390 人气

关注发私信

留蓝

文章 0 评论 0

关注

18790681156

文章 0 评论 0

关注

zach7772

文章 0 评论 0

关注

Wini

文章 0 评论 0

关注

ayeshaaroy

文章 0 评论 0

关注

初雪

文章 0 评论 0

友情链接

文江博客

有关Selenium做爬虫方式的资源消耗的问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论