为什么 Facebook 无法正确解析 Twitter URL?

发布于 2024-10-05 15:57:38 字数 590 浏览 1 评论 0原文

我正在摸不着头脑,

拿一个(新的)Twitter 网址,例如。 [http://twitter.com/#!/NASA](注意“#!”)

将此链接粘贴到您的 Facebook 墙上或“您在想什么?” Facebook 主页上的输入框。

抓取链接后,查看该链接解析为哪个链接。这不是正确的 Twitter 网址。昨晚它解析为 [http://twitter.com/#!/d3nidhint],现在它解析为 [http://twitter.com/#!/_hKnbln] (前者解析为 Twitter 页面,后者解析为不是)。什么给?

Facebook 清楚地解析了这个 url,并将其解析为不同的内容。如果它能做到这一点,它应该将 URL 解析到正确的 Twitter 页面。我在网上搜索并找到了建议抓取这些 AJAX url 的 Google 链接,但与这种奇怪的异常现象无关:[http://code.google.com/web/ajaxcrawling/] 和 [http://googlewebmastercentral.aspx]。 blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html]

有什么想法吗?

I am scratching my head

Take a (new) twitter url, ex. [http://twitter.com/#!/NASA] (notice the "#!")

Paste this link on your Facebook wall or the "What's on your mind?" input box on the main Facebook page.

After it crawls the link, look at what link this resolves to. It's not the correct twitter url. Last night it resolved to [http://twitter.com/#!/d3nidhint] and now it's resolving to [http://twitter.com/#!/_hKnbln] (the former resolves to a twitter page, the latter does not). What gives?

Facebook clearly parses this url and resolves it as something different. If it can do this much, it should resolve the url to the proper twitter page. I searched online and came up with Google links that propose crawling these AJAX urls, but nothing having to do with this weird anomoly: [http://code.google.com/web/ajaxcrawling/] and [http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html]

Thoughts?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

美羊羊 2024-10-12 15:57:38

发生这种情况的原因是 Twitter 将其永久链接(如 http://twitter.com/RWW 更改为 http://twitter.com/#!/RWW),而 Facebook 爬虫认为这只是同一页面的更新 http://twitter.com/RWW ://twitter.com/ 这样你就可以获得最后缓存的内容。他们将需要更新他们的爬虫以替换 #!出去。如果这是所有使用 ajax 导航的人的标准做法,那就太好了。

ps - 添加了空间,因为堆栈溢出认为我所有的链接都是垃圾邮件 - 哈哈

The reason why this is happening is because Twitter switched their permalinks like http:// twitter.com/RWW to http:// twitter.com/#!/RWW and the Facebook crawler thinks its just all an update to the same page http:// twitter.com/ so you get whatever was cached last. They will need to update their crawler to replace the #! out. It would be great if this was a standard practice for all people doing ajax navigation.

ps - Added space because stack overflow thinks all my links are spam - LOL

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文