我可以阻止蜘蛛访问带有某些 GET 参数的页面吗?
我们有一个页面可以选择将 ID 作为 GET 参数。如果提供的 ID 无效,页面会抛出错误并发出有人错误访问该页面的通知。火上浇油的是,ID 可能会暂时有效…
从 Google 索引中删除整个网站
我的网址是:http://LawMirror.com -(在线法律资源) 我想从 Google 索引中删除内容。 Google 索引包括我的网站,之前在 Google 索引中索引了大约 5,…
阻止允许内容之间的文件夹
我有一个具有以下结构的网站: http://www.example.com/folder1/folder2/folder3 我想禁止在 folder1 和 folder2 中建立索引。 但我希望机器人能够索…
如何禁止在源服务器上进行爬网,同时又能正确传播 robots.txt?
我遇到了一个相当独特的问题。如果您负责扩展大型站点并与 Akamai 这样的公司合作,您就会拥有 Akamai 与之通信的源服务器。无论您向 Akamai 提供什么…
YQL robots.txt 受限 URL 问题
我正在开发一个包含以下 YQL 查询的 Web 应用程序: SELECT * FROM html WHERE url="{URL}" and xpath="*" 我上周部署了一个新版本,并注意到该页面挂…
Java/1.6.0_24 是机器人吗以及如何强制它们刷新链接
我们现在有很多网站都使用 log4net 基本错误日志框架,并且我们从网站附加的任何地方都会收到错误。我们注意到其中一些因为“Bot”而捕获错误,例如 …
如何防止滥用爬虫爬取部署在 Heroku 上的 Rails 应用程序?
我想限制爬虫程序访问 Heroku 上运行的 Rails 应用程序。如果我使用 Apache 或 nginX,这将是一项直接的任务。由于该应用程序部署在 Heroku 上,我不…
如何使用 .htaccess 避免双重 google 索引?
我有一个网站,其根目录中有一个很好的 RewriteRule,它将所有此类查询重定向: http://domain.com/foo/parameter 用户 http://domain.com/index.php?…
rel=nofollow 子域
我有一个用于广告的子域。它安装了 openx 来提供广告服务。我如何确保子域中的所有内容都像添加 rel=nofollow 一样处理,因为我不希望 Google 和其他…
HttpWebRequest 是否遵守 .Net 中的 robots.txt?
我正在为 Web 开发人员创建一个工具,它将“扫描”他们网站上的 HTML。 这需要我的 Asp.Net 应用程序从他们的站点下载页面。 为了防止滥用,我想确保…
请帮助我理解子域 robots.txt 的简单 nginx 重写问题
对于我的子域,我想指向不同的 robots.txt 文件。我希望以下代码能够正常工作: if ($host ~ subdomain) { rewrite ^/favicon.ico$ /favicon.ico brea…
Robots.txt:禁止子目录但允许目录
我想允许抓取以下文件: /directory/ 但不允许抓取以下文件: /directory/subdirectory/ 正确的 robots.txt 指令: User-agent: * Disallow: /subdire…