当我尝试屏幕抓取时，Gap.com 正在重定向我

发布于 2024-09-07 09:05:00 字数 570 浏览 5 评论 0原文

我们正在建立一个网站，允许用户从互联网上的各个地方收集和存储他们最喜欢的产品到一个地方。我们有一种算法，可以通过读取源代码过滤并找到正确的图像。 80% 的网站工作正常，但 2 家大公司阻止将我们从产品页面重定向到他们的主页。

例如此产品 http://www.gap.com/browse/product.do?pid=741123&kwid=1&sem=false& ;sdReferer=http://www.gap.com/products/graphic-ts-toddler-boy-clothing-C35792.jsp# 选择gap.com 主页的标题，而不是手头产品的标题。

我们如何绕过这个重定向并允许我们的算法通过读取正确的源代码来收集正确的图像？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

爱的十字路口 2024-09-14 09:05:00

首先，您可以请律师研究您的目标网站的服务条款，并确保您不会遇到法律问题。

在技术方面，设置 Referer [原文如此]请求图像时的 header 。图像的引荐来源网址应该是嵌入该图像的页面。服务器可以检查这一点以确保正在请求图像以满足浏览器而不是图像采集屏幕抓取器的页面渲染。

对相关图像进行一些测试后，看起来不需要 Referer 标头。也许它只是拒绝一个不熟悉的用户代理，或者消除了请求中的一些其他奇怪的情况，例如缺少 Accept 标头等。

回复收藏 0 原文

赠我空喜 2024-09-14 09:05:00

我想您需要将抓取工具的用户代理字符串更改为看起来像普通浏览器的字符串（默认情况下您可能会发送类似 curl 或 wget 的字符串）。

不过，如果您向他们发送足够的流量，他们最终会注意到并以难以规避的方式关闭您，这是一个很好的机会。

回复收藏 0 原文

~没有更多了~

关于作者

(り薆情海

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

当我尝试屏幕抓取时，Gap.com 正在重定向我

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

娇女薄笑

biaggi

xiaolangfanhua

rivulet

我三岁

薆情海

友情链接

当我尝试屏幕抓取时，Gap.com 正在重定向我

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

娇女薄笑

biaggi

xiaolangfanhua

rivulet

我三岁

薆情海

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。