mongodb做分布式数据仓库省心吗?
现在需要构建一个20TB的数据仓库,要求配置和维护管理不要过于复杂,版本升级比较友好,因为没有运维。
在Cassandra和Mongodb间犹豫,网上不少人说Mongodb会莫名其妙丢数据,升级麻烦,添加节点麻烦,多节点数据同步带宽占有很高等问题。也有人说那是默认配置的错,是老版本的错,新版本OK了云云。
请以Mongodb尝试过N个TB的数据仓库的过来人说说,Mongodb省心吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(11)
两个都可以用,关键还是看你的场景,Cassandra 为弱数据一致性,但可以分区同步和自动复制,省心. mongodb需要你建立集群,数据不会丢失.
如果只是分析数据的应该有很多代替品,例如前些时候推荐的eventql.
那相配置比较毕竟,列式数据库.
Mongodb推荐,不会丢失数据.Cassandra 需要看你的实际情况,如果你的仓库存储是分布式的,跨了多个区域,则可能我会推荐 Cassandra,这样你不用担心和考虑数据同步复制的问题, 当然,如果你对数据一致性要求很高则可能要考虑其他方案.
放Hive吧。
就是爬虫爬的html和html解析之后的数据
数据仓库是指存数据的像数据库还是像maven服务器那样的?
这么多数据 放那里都不好维护
回复
@Li_Peng : Hive是基于Hadoop,但是Hadoop 不是出了名的难配置难维护嘛,万一出了问题,没有运维,忙成狗啊
回复
@金木道长 : 除非你真的是精通mongodb,不然的话存储20TB数据肯定也是一大堆问题。
这2个都不适合做dw,如果只是为了简单,可以考虑使用hive。
没玩过啊