如果站点地图不在 robots.txt 中,有没有办法检测它?
我正在为一个项目开发一个简单的机器人,我注意到很多网站的 robots.txt 文件中没有站点地图。当然,可以选择简单地对有问题的网站建立索引并抓取所有可能的页面,但这通常比简单地下载站点地图需要更多的时间。
如果 robots.txt 中未提及,检测站点地图的最佳方法是什么?
I'm working for a simple bot for a project, and I noticed, that a lot of sites do not have sitemaps in their robot.txt files. There is of course an option to simply index the sites in question and crawl all possible pages, but that often takes much more time than simply downloading sitemap.
What is the best way to detect sitemap if it is not mentioned in robots.txt?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
通常它应该放置在像 xydomain.xyz/sitemap.xml 这样的域的根目录中。
如果站点地图放置在其他地方,我只会将站点地图添加到 robots 文件中。如果某个网站使用位于另一位置的多个站点地图,则应在 索引图。
Normally it should be placed in the root directory of a domain like xydomain.xyz/sitemap.xml .
I would only add the site map into the robots file, if it is placed elsewhere. If a site uses more than one site map located on another place, it should be noted in an index map.
您可以使用此在线工具扫描您的网站并为您的网站创建定制的 sitemap.xlm 文件。
为了帮助通过 robots.txt 发现您的站点地图,请在 robots.txt 文件的最顶部添加站点地图的 URL(请参阅下面的示例)。
因此,robots.txt 文件如下所示:
You can use this online tool to scan your site and create a bespoke sitemap.xlm file for your site.
To help your sitemap to be discovered through the robot.txt add the URL of your sitemap at the very top of your robot.txt file, (see below example).
So, the robots.txt file looks like this: