如何众包我的网络爬行
我的 Web 应用程序需要从指定的用户 URL 下载内容。 目前这个请求通过我的服务器,效率低下并且可能会导致我的服务器 IP 被阻止。
有没有办法让用户直接下载URL内容呢? 同源策略似乎阻止使用 AJAX 或 iframe 来下载和重用此内容。
有什么想法吗?例如,有没有办法通过 Flash 下载和重用 URL 内容?
My web application requires downloading content from the user URL specified.
Currently this request go through my server, which is inefficient and could get my server IP blocked.
Is there a way to let the user download the URL content directly?
The same-origin policy seems to prevent using AJAX or an iframe to download and reuse this content.
Any ideas? For example is there a way via flash to download and reuse URL content?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您可以使用 Tor 来屏蔽您的请求,但如果您必须花这么长时间来抓取网站也许你不应该这样做?
此外,通过您的方法,iframe 请求将包含您的页面 URL 作为引荐来源网址,这使得在服务器端识别这些请求非常简单......
You could use Tor to mask your requests, but if you're having to go such lengths to crawl a website perhaps you shouldn't be doing it?
Also, with your approach the iframe request will include your page URL as the referrer, which makes identifying these requests at the server end pretty straightforward...
如果是特定的网络端,我建议与网站运营商交谈,而不是尝试匿名抓取。
If it's a specific web side, I recommend to talk to the website operators rather than trying to crawl anonymously.