如何实现wget在http上的正则搜索
之前一直尝试收集某些特定名称url下的内容,比如http://www.amazon.com/Harry-Potter-...
为此甚至想到把google的搜索结果加到wget后面之类的土办法:
但后来发现google会阻止类似的操作。
所以请教一下有何解决办法,当然不一定用wget,有其他爬虫类的软件可以实现类似功能也行。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Google 阻止是因为你访问太快了,另外还要在设置一个模拟浏览器的 User-Agent