robots.txt

robots.txt

文章 4 浏览 437

我可以阻止蜘蛛访问带有某些 GET 参数的页面吗?

我们有一个页面可以选择将 ID 作为 GET 参数。如果提供的 ID 无效,页面会抛出错误并发出有人错误访问该页面的通知。火上浇油的是,ID 可能会暂时有效…

只为守护你 2024-11-09 18:35:47 0 0

从 Google 索引中删除整个网站

我的网址是:http://LawMirror.com -(在线法律资源) 我想从 Google 索引中删除内容。 Google 索引包括我的网站,之前在 Google 索引中索引了大约 5,…

猫九 2024-11-07 09:57:02 0 0

我可以使用 robots.txt 来禁止电子邮件地址吗?

在我网站的页脚中,我有一个电子邮件地址,地址为 info@mydomain。我想知道我是否可以禁止坏/好机器人索引该地址? 谢谢…

悲歌长辞 2024-11-07 02:39:51 0 0

阻止允许内容之间的文件夹

我有一个具有以下结构的网站: http://www.example.com/folder1/folder2/folder3 我想禁止在 folder1 和 folder2 中建立索引。 但我希望机器人能够索…

夏末的微笑 2024-11-06 19:21:33 1 0

如何禁止在源服务器上进行爬网,同时又能正确传播 robots.txt?

我遇到了一个相当独特的问题。如果您负责扩展大型站点并与 Akamai 这样的公司合作,您就会拥有 Akamai 与之通信的源服务器。无论您向 Akamai 提供什么…

妄司 2024-11-06 02:45:17 0 0

将(文本文件)转换为任何格式的图像(png)C++

有人可以给我提供一份 C++ 代码吗,用于将文本文件转换为任何格式的图像,我知道图像没有任何意义,但我这样做是出于安全原因, 有人可以给我提供一份…

歌入人心 2024-11-05 17:44:47 1 0

YQL robots.txt 受限 URL 问题

我正在开发一个包含以下 YQL 查询的 Web 应用程序: SELECT * FROM html WHERE url="{URL}" and xpath="*" 我上周部署了一个新版本,并注意到该页面挂…

酷到爆炸 2024-11-04 11:13:43 0 0

Java/1.6.0_24 是机器人吗以及如何强制它们刷新链接

我们现在有很多网站都使用 log4net 基本错误日志框架,并且我们从网站附加的任何地方都会收到错误。我们注意到其中一些因为“Bot”而捕获错误,例如 …

忆离笙 2024-11-04 05:34:11 1 0

如何防止滥用爬虫爬取部署在 Heroku 上的 Rails 应用程序?

我想限制爬虫程序访问 Heroku 上运行的 Rails 应用程序。如果我使用 Apache 或 nginX,这将是一项直接的任务。由于该应用程序部署在 Heroku 上,我不…

如歌彻婉言 2024-11-02 18:57:01 0 0

如何使用 .htaccess 避免双重 google 索引?

我有一个网站,其根目录中有一个很好的 RewriteRule,它将所有此类查询重定向: http://domain.com/foo/parameter 用户 http://domain.com/index.php?…

短叹 2024-11-02 08:23:41 1 0

登录失败时难以进行 .htaccess 重定向

我希望实现的目标相当简单。我在网络服务器的根目录中有一个开发文件夹,我不希望人们在没有登录的情况下访问该文件夹。如果他们访问正在开发的页面并…

冷心人i 2024-11-01 14:57:19 1 0

rel=nofollow 子域

我有一个用于广告的子域。它安装了 openx 来提供广告服务。我如何确保子域中的所有内容都像添加 rel=nofollow 一样处理,因为我不希望 Google 和其他…

狼亦尘 2024-11-01 13:16:40 1 0

HttpWebRequest 是否遵守 .Net 中的 robots.txt?

我正在为 Web 开发人员创建一个工具,它将“扫描”他们网站上的 HTML。 这需要我的 Asp.Net 应用程序从他们的站点下载页面。 为了防止滥用,我想确保…

只有一腔孤勇 2024-10-30 02:32:12 0 0

请帮助我理解子域 robots.txt 的简单 nginx 重写问题

对于我的子域,我想指向不同的 robots.txt 文件。我希望以下代码能够正常工作: if ($host ~ subdomain) { rewrite ^/favicon.ico$ /favicon.ico brea…

故人爱我别走 2024-10-28 01:52:11 3 0

Robots.txt:禁止子目录但允许目录

我想允许抓取以下文件: /directory/ 但不允许抓取以下文件: /directory/subdirectory/ 正确的 robots.txt 指令: User-agent: * Disallow: /subdire…

旧故 2024-10-25 12:10:56 1 0
更多

推荐作者

烙印

文章 0 评论 0

singlesman

文章 0 评论 0

独孤求败

文章 0 评论 0

晨钟暮鼓

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文