当前位置：文江博客话题详情

NoSQL hadoop HBase datanucleus

Hbase性能

发布于 2024-12-02 11:42:15 字数 522 浏览 5 评论 0原文

我正在使用 Spring + Datanucleus JDO + Hbase。 Hbase采用完全分布式模式，有两个节点。我在这里面临严重的性能问题。

我的 web 应用程序可以被视为一个 pinger，它只是不断 ping URL 并存储它们的响应。因此，我的应用程序运行多个线程来插入数据库。我观察到，一旦并发写入数量超过 20 左右，插入就会开始花费大量时间（有些甚至需要 1000 秒）。当这种情况发生时，READS 也会开始失败，并且我的 web 应用程序无法从数据库中提取任何数据（我的 web 应用程序挂起）。我不太喜欢 NoSQL 数据库，因此不知道从哪里开始寻找性能。

我的主要配置是： Zookeeper 法定人数大小：1 Hbase 区域服务器：2 数据节点：2 hbase.zookeeper.property.maxClientCnxns：400 复制因子：3

我需要增加 Hbase 的堆大小吗？高写入吞吐量是否会对读取产生影响？

我的配置有问题吗？似乎写入文件比将数据写入 Hbase 更快。这是我在 Hbase 的最后一次尝试。请帮忙

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

白云悠悠 2024-12-09 11:42:15

我看到的一个大问题是，您在 2 个节点上运行 HBase，复制因子为 3（实际上只有 2，因为只有 2 个节点可供复制）。这意味着所有写入都必须复制到两个节点。 HBase 确实需要至少 5 个左右的节点才能运行。

听起来你正在填满你的第一个区域并且它正在分裂，在分裂期间一旦 MemStore 填满你就会开始阻塞。您应该考虑将表预先拆分为多个区域，以便均匀分布写入。

我建议您查看HBase 书中有关性能的章节，特别是关于性能的部分预分割表。

您还应该使用压缩，确保本地压缩正常工作（gzip 、 lzo 或 snappy） - 不要使用纯 Java 压缩，否则你会非常慢，链接对此进行了一些讨论。

回复收藏 0 原文

心如狂蝶 2024-12-09 11:42:15

如果您要使用多个线程写入 HBase，则需要确保尽可能频繁地重用 HBaseConfiguration。否则，每个线程都会创建一个新连接，ZK 最终将停止提供连接，直到旧连接关闭。

一个快速的解决方案是让单例处理将配置传递给 HTable 对象。这应该保证使用相同的配置，并将最大限度地减少并发连接。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

凯凯我们等你回来

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文