googlebot在抓取时会保留会话吗?

发布于 2024-12-13 03:28:27 字数 144 浏览 1 评论 0原文

当googlebot抓取页面时它有会话吗?例如,我在会话中存储一些变量并在我的网站页面中使用它们。当 googlebot 抓取这些页面时,我还会有会话变量吗?在我的 global.asax 中,我在会话启动时在会话中存储一些变量。我使用 Google bot 会遇到问题吗?

When googlebot crawls pages does it have session? For example I am storing some variables on the session and using them in my site's pages. When googlebot crawls these pages will I still have the session-variables? In my global.asax I am storing some variables on the session at session start. Will I have any problem with Google bot?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

离笑几人歌 2024-12-20 03:28:28

您的一个问题的答案是:,您在使用 Google bot 时会遇到问题。

一般来说,我们在使用 google bot 时遇到了两种类型的问题:

  1. 它有时不会在请求之间保留 HTTP cookie。我们的应用程序依赖于自定义 Cookie,并且捕获到的大量 Google 机器人请求根本不携带 Cookie。

  2. 它会在连续请求之间产生长时间的中断。例如,它会检索您的页面并稍后请求其脚本。

两者都会给你的会话带来麻烦。首先 - 您需要在请求之间传递精确的 ASPNETSessionID cookie。 Googlebot 有时可能无法做到这一点。其次,如果请求之间的时间间隔很长,即使 cookie 存在,您的会话也会终止。

The answer to one of your question is: yes, you will have problems with Google bot.

Generally we've encountered two types of issues with google bot:

  1. it sometimes does not retain HTTP cookies between requests. Our application relies on custom cookies and the there were plenty of google bot requests caught to carry no cookies at all.

  2. it makes long breaks between consecutive requests. For example, it retrieves your page and asks for it's scripts later on.

Both will cause troubles with your session. First - you need a precise ASPNETSessionID cookie to be passed between requests. Googlebot will probably sometimes fail to do that. Second - if there's a long timespan between requests, your session is going to terminate even if the cookie is there.

铃予 2024-12-20 03:28:28

一般来说,答案是否定的,但是其他爬虫(有很多)以其他方式工作。

我应该注意到,我已经看到了 Adwords 的 google 爬虫程序(不是普通的 googlebot)的实例,它确实提供了会话 cookie。

Generally the answer is no, however other crawlers (of which there are plenty) work other ways.

I should note that I have seen an instance of a google crawler for Adwords (not the normal googlebot) which DID present a session cookie.

明媚如初 2024-12-20 03:28:28

我认为这不太可能。每次抓取您的网站时,它都应该创建一个新会话。

It's very unlikely, I think. It should create a new session every time it crawls your website.

枕花眠 2024-12-20 03:28:27

Googlebot 积极尝试避免会话并且不支持 cookie。来自与 Googlebot 的第一次约会:标头和压缩(2008 年 3 月)

我通常会避免使用 cookie(因此没有“Cookie:”标头),因为我不想
内容受特定于会话的信息影响太大。并且,如果一个
服务器在动态 URL 中使用会话 ID 而不是 cookie,我可以
通常会弄清楚这一点,这样我就不会爬行你的相同内容
使用一百万个不同的会话 ID 页面一百万次。

我想大多数常规搜索引擎机器人在这方面都是相似的。 Google 正在尝试建立唯一 URL 的索引。 URL 是标识唯一内容页面的唯一键。当用户单击 SERPS 中的链接时,不会传递 Cookie(和会话)。 Google 主要索引页面,而不是网站。

Googlebot actively tries to avoid sessions and does not support cookies. From First date with the Googlebot: Headers and compression (March 2008)

I usually avoid cookies (so no "Cookie:" header) since I don't want
the content affected too much by session-specific info. And, if a
server uses a session id in a dynamic URL rather than a cookie, I can
usually figure this out, so that I don't end up crawling your same
page a million times with a million different session ids.

I imagine most regular search engine bots will be similar in this respect. Google is trying to build an index of unique URLs. The URL is the unique key that identifies a unique page of content. Cookies (and sessions) are not passed when a user clicks a link in the SERPS. Google is primarily indexing pages, not sites.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文