当前位置：文江博客话题详情

任何人都可以获得任何 C# 代码来解析 robots.txt 并根据它评估 URL

发布于 2024-07-15 01:25:45 字数 710 浏览 8 评论 0原文

简短的问题：

是否有人有任何 C# 代码来解析 robots.txt，然后根据它评估 URL，看看它们是否会被排除。

长问题：

我一直在为尚未发布到谷歌的新网站创建站点地图。站点地图有两种模式：用户模式（如传统站点地图）和“管理”模式。

管理模式将显示网站上所有可能的 URL，包括自定义的入口 URL 或特定外部合作伙伴的 URL，例如在 Oprah 上看到我们网站的任何人的 example.com/oprah。我想在 Excel 电子表格以外的地方跟踪已发布的链接。

我不得不假设有人可能会在他们的博客或其他地方发布 /oprah 链接。我们实际上并不希望这个“迷你奥普拉网站”被编入索引，因为这会导致非奥普拉观众能够找到奥普拉的特别优惠。

因此，在创建站点地图的同时，我还添加了要从我们的 robots.txt 文件中排除的 URL，例如 /oprah。

然后（这是实际的问题）我想“如果能够在站点地图上显示文件是否已索引并且对机器人可见，这不是很好吗”。这非常简单 - 只需解析 robots.txt，然后根据它评估链接即可。

然而，这是一个“额外功能”，我当然没有时间去写它（即使认为它可能没有那么复杂） - 所以我想知道是否有人已经编写了任何代码来解析 robots.txt ？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浪漫之都 2024-07-22 01:25:45

不想这么说，但只需谷歌“C# robots.txt 解析器”并单击第一个命中即可。这是一篇 CodeProject 文章，介绍了一个用 C# 实现的名为“Searcharoo”的简单搜索引擎，它包含一个类 Searcharoo.Indexer.RobotsTxt，描述为：

检查网站上的 robots.txt 文件，如果存在，则下载并解析该文件
为Spider提供一个接口，以根据robots.txt规则检查每个网址

回复收藏 0 原文

未央 2024-07-22 01:25:45

我喜欢 http://code.google.com/p/robotstxt/ 会推荐它作为起点。

回复收藏 0 原文

全部不再 2024-07-22 01:25:45

有点自我推销，但由于我需要一个类似的解析器并且找不到任何我满意的东西，所以我创建了自己的解析器：

http://nrobots.codeplex.com/

我希望得到任何反馈

回复收藏 0 原文

~没有更多了~

关于作者

清风挽心

暂无简介

0 文章

0 评论

24 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

任何人都可以获得任何 C# 代码来解析 robots.txt 并根据它评估 URL

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签