了解 Google 上次抓取的时间

发布于 2024-08-13 06:49:11 字数 201 浏览 8 评论 0原文

我想了解谷歌当前缓存的大量页面的副本情况如何。我想我需要

  1. 在日志中查找 IP,
  2. 检查以查找用户代理“googlebot”,然后
  3. 导出一个列表,其中显示每个页面及其上次访问时间。

我想这可能是一个每周运行的 cron 作业。如果这是正确的,我将如何编写脚本?如果这是错误的,那么更好的方法是什么?

I'd like to find out how current google's cached copy of a large set of pages is. I think I need to

  1. look in the logs for IP's,
  2. check to find user-agent "googlebot", then
  3. export a list that says each page and when it was last visited.

I imagine this could be a cron job that runs weekly. If this is right, how would I write the script? If this is wrong, what would be a better way?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

机场等船 2024-08-20 06:49:11

Google 已通过 Google 站点地图。我已经使用它三年了 - 效果很好。

将您的网站添加到 SiteMap,并将生成的您网站的 SiteMap XML(Google 提供免费提供此服务的网站)放在您的网络服务器上,然后让 Google 完成剩下的工作。站点地图中有一个名为抓取统计的部分,可以为您提供您想要的内容。

获取 Google 对您网站的看法并诊断问题

了解 Google 如何抓取您的内容并将其编入索引
网站并了解具体问题
我们正在访问它。

发现您的链接和查询流量

查看、分类和下载
有关内部和外部的全面数据
带有新内容的外部链接到您的网站
链接报告工具。找出哪个
Google 搜索查询将流量吸引到
您的网站,并准确了解用户如何
到达那里。

分享有关您网站的信息

告诉我们您的页面
站点地图:哪些是最多的
对您来说很重要以及他们多久一次
改变。您也可以让我们知道如何
您想要我们索引的网址
出现。

Google already provides this information via Google SiteMaps. I have used it for the past three years - works great.

Add your site to SiteMaps and put a generated SiteMap XML of your site (Google for websites that provide this free) on your web server, then let Google do the rest. There is section in SiteMaps called Crawl Stats that gives you what you want.

Get Google's view of your site and diagnose problems

See how Google crawls and indexes your
site and learn about specific problems
we're having accessing it.

Discover your link and query traffic

View, classify, and download
comprehensive data about internal and
external links to your site with new
link reporting tools. Find out which
Google search queries drive traffic to
your site, and see exactly how users
arrive there.

Share information about your site

Tell us about your pages with
Sitemaps: which ones are the most
important to you and how often they
change. You can also let us know how
you would like the URLs we index to
appear.

不必在意 2024-08-20 06:49:11

这不是必需的,您可以对 Google 进行服务调用来查找缓存的页面,即搜索 cache:stackoverflow.com,其中包括时间和日期。如果有一个 api 调用可以更直接地执行此操作,我不会感到惊讶(更新:Google 搜索API)。

That isn't necessary, you can do a service call to Google to look up the cached page, i.e. searching for cache:stackoverflow.com, which included the time and date. I wouldn't be surprised if there's an api call to do this more directly (update: Google Search API).

话少情深 2024-08-20 06:49:11

最后的 Googlebot Access 也可以通过 mypagerank.net 或 Google 工具栏等网站免费找到。

Last Googlebot Access can also be found for free via some websites like mypagerank.net or the Google Toolbar.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文