如何众包我的网络爬行

发布于 2024-08-09 00:07:00 字数 185 浏览 10 评论 0原文

我的 Web 应用程序需要从指定的用户 URL 下载内容。 目前这个请求通过我的服务器,效率低下并且可能会导致我的服务器 IP 被阻止。

有没有办法让用户直接下载URL内容呢? 同源策略似乎阻止使用 AJAX 或 iframe 来下载和重用此内容。

有什么想法吗?例如,有没有办法通过 Flash 下载和重用 URL 内容?

My web application requires downloading content from the user URL specified.
Currently this request go through my server, which is inefficient and could get my server IP blocked.

Is there a way to let the user download the URL content directly?
The same-origin policy seems to prevent using AJAX or an iframe to download and reuse this content.

Any ideas? For example is there a way via flash to download and reuse URL content?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

ι不睡觉的鱼゛ 2024-08-16 00:07:00

您可以使用 Tor 来屏蔽您的请求,但如果您必须花这么长时间来抓取网站也许你不应该这样做?

此外,通过您的方法,iframe 请求将包含您的页面 URL 作为引荐来源网址,这使得在服务器端识别这些请求非常简单......

You could use Tor to mask your requests, but if you're having to go such lengths to crawl a website perhaps you shouldn't be doing it?

Also, with your approach the iframe request will include your page URL as the referrer, which makes identifying these requests at the server end pretty straightforward...

一瞬间的火花 2024-08-16 00:07:00

如果是特定的网络端,我建议与网站运营商交谈,而不是尝试匿名抓取。

If it's a specific web side, I recommend to talk to the website operators rather than trying to crawl anonymously.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文