使搜索引擎能够索引来自 Web 应用程序的数据
我正在使用 Java 和 Cassandra DB 构建社交网络应用程序。我希望搜索引擎可以看到数据库中的一些数据。 由于我的应用程序是完全动态的&只包含DB中的数据而不包含静态页面中的数据,爬虫如何读取这些数据?
1.)如何确保搜索引擎可以看到存储在我的服务器上的数据?我的应用程序包含用户特定数据
2.)搜索引擎如何访问该数据?
3.)如何限制搜索引擎仅抓取某些特定数据?
I am building a social web application using Java and Cassandra DB. I want some of the data from my database to be visible to search engines.
Since my application is completely dynamic & contains data only in DB and not in static pages, how do the crawlers read this data?
1.)How can I ensure that the data stored on my servers can be seen by the search engines? My application contains user specific data
2.)How do the search engines access that data ??
3.)How can I limit the search engines crawling only to some specific data?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
请阅读 Google 的说明。
搜索引擎像您网站的任何其他用户一样访问您的数据:通过浏览并单击它们找到的所有链接。仅通过 AJAX 访问的内容将更难以被搜索引擎访问。
可以使用 robots.txt 文件限制访问。上面给出的链接中给出了解释。
Read the explanations from Google.
The search engines access your data as any other user of your website : by browsing it and clicking all the links they find. Content accessible only through AJAX will be more difficult to make accessible by search engines.
Access can be restricted using a robots.txt file. Explanations are given in the link given above.
1) 您需要将用户特定信息与公共信息分开,要么您应该拥有公共页面和私有页面,要么您可以通过一些基于会话的 Ajax 调用使用用户特定信息来装饰您的公共页面。
含义:浏览器仅加载页面的公共版本,而 JavaScript 会加载用户详细信息并将其注入页面中。
2和3可以通过将站点地图上传到Google来解决。
或者您希望 Google 直接与 Cassendra 对话......?然后忽略以上所有内容 - 我认为。
1) You need to separate user specific info from public info, either you should have public and private pages - or you could decorate you'r public page with user specifics through some session based Ajax calls.
Meaning: the browser just load the public version of the page, while a javascript would load the users specifics and inject them into the page.
2 and 3 could be solved by uploading a site map to Google.
Or do you want Google to talk to Cassendra directly...? Then ignore all above - I think.