当前位置：文江博客话题详情

网络爬虫的最佳数据库设计

发布于 2024-11-18 20:53:27 字数 408 浏览 1 评论 0原文

许多数据库系统都适合与网络爬虫一起使用，但是有没有专门为网络爬虫开发的数据库系统（在.net中）。

我的经验表明，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要诸如 sql server 的 FILESTREAM 之类的东西。或者检查数据库中是否已存在 URL，最佳选择是 memcached。

事实上我有两个问题

1）什么是与网络爬虫一起使用的最佳数据库系统？

2）有没有涵盖所有功能的数据库系统！！！！！！！！！？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

凉城 2024-11-25 20:53:27

仅供参考，据我所知，Google 没有使用任何合理的数据库引擎，他们宁愿拥有专有的文件系统 GFS 和自己的数据持久性抽象。

谁告诉你 memcached 是最好的选择？考虑到，如果数据量很大，你会耗尽内存，当然，除非你有一个大数据中心并且能够在内存中跨机器共享数据......

我认为这不是最好的选择，最好的可能是谷歌，他们的大部分工作都是在内部完成的。

如果你可以处理高水平（但仍然不是最好的），我认为所有引擎，如 SQL Server、Oracle、mySQL 和许多其他引擎都可以表现良好，这更多地取决于你如何使用它们以及如何构建你的解决方案。

回复收藏 0 原文

迷爱 2024-11-25 20:53:27

Google 使用面向列的数据库BIGTABLE 来存储其抓取工具结果以及谷歌文档，以及构建在 GFS（谷歌文件系统）之上的其他谷歌产品。他们的设计是迄今为止我所知道的最好的。

Apache HBase 在实现上与 Bigtable 类似。 HBase 构建在 HDFS（Hadoop 分布式文件系统）之上。

回复收藏 0 原文

~没有更多了~

关于作者

聽兲甴掵

暂无简介

0 文章

0 评论

23 人气

关注发私信

離殇

文章 0 评论 0

关注

小姐丶请自重

文章 0 评论 0

关注

Aik

文章 0 评论 0

关注

国产ˉ祖宗

文章 0 评论 0

关注

猥琐帝

文章 0 评论 0

关注

半仙

文章 0 评论 0

友情链接

文江博客

网络爬虫的最佳数据库设计

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

网络爬虫的最佳数据库设计

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。