当前位置：文江博客话题详情

文件存储数据采集

几亿条海量数据,比如新浪微博,N亿条微博如何存储?

发布于 2022-09-01 19:33:13 字数 32 浏览 40 评论 0

几亿条海量数据,比如新浪微博,N亿条微博如何存储?

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

離殇 2022-09-08 19:33:13

数据存储的时候做了拆分，数据库是集群形式的。创建数据的时候，首先通过发号器生成一个ID，然后根据一致性hash算法来得到存储的节点位置。大体上思路是这个样子的。

一笔一画续写前缘 2022-09-08 19:33:13

这种大数据的存储架构思考，通常如下

1、数据样式究竟如何？就要考虑如何存储数据，例如：微博的数据，应该分几种，a.通常的微博消息体，字符串类型；b.关注方式的朋友关系链的存储；c.帐号属性信息存储等等。存储方式不同：消息体一般以NoSQL在线存储和Hadoop、MongoDB的文本消息信息存储。关系链：分布式NoSQL方案；帐号属性： mysql PostGresSQL在线存储。
2、数据时效性不同而导致的数据存储方案不同。比如：关系链肯定是内存化存储的，消息体也有最近1周的在线存储。这样，就可以保证数据的时效性、快速访问。而离线数据的存储，可以hdfs的方式来存储。至于分布式的HASH的问题，一般在在线时效存储中要考虑，平行扩容、容灾恢复问题。而离线HDFS则由于本身的分布式系统特性，不用太考虑这些分布式一致性Hash问题。

陌上青苔 2022-09-08 19:33:13

推荐使用神箭手云爬虫，完全在云上编写和执行爬虫，不需要配置任何开发环境，快速开发快速实现。

简单几行 javascript 就可以实现复杂的爬虫，同时提供很多功能函数：反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等，这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

卷耳

文章 0 评论 0

佚名

文章 0 评论 0

℉服软

文章 0 评论 0

qq_2gSKZM

文章 0 评论 0

凉宸

文章 0 评论 0

gyhjy

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文