当前位置：文江博客话题详情

hadoop HBase MySQL bigtable

如果 HBase 不是在分布式环境中运行，它还有意义吗？

发布于 2024-08-10 14:49:52 字数 604 浏览 11 评论 0原文

我正在构建一个数据索引，这将需要以 （文档、术语、权重） 的形式存储大量三元组。我将存储多达几百万个这样的行。目前我正在 MySQL 中将其作为一个简单的表来执行。我将文档和术语标识符存储为字符串值，而不是其他表的外键。我正在重写软件并寻找更好的数据存储方法。

看看 HBase 的工作方式，这似乎非常适合该架构。我可以将 document 映射到 {term =>; ，而不是存储大量三元组。重量}。

我在单个节点上执行此操作，因此我不关心分布式节点等。我应该坚持使用 MySQL 因为它有效，还是尝试 HBase 是明智之举？我看到 Lucene 使用它进行全文索引（这与我正在做的类似）。我的问题是，单个 HBase 节点与单个 MySQL 节点相比如何？我来自 Scala，那么直接的 Java API 是否比 JDBC 和 MySQL 解析等每个查询有优势？

我主要关心的是插入速度，因为这一直是以前的瓶颈。处理后，我可能最终会将数据放回 MySQL 进行实时查询，因为我需要做一些计算，这些计算最好在 MySQL 中完成。

我会尝试对两者进行原型设计，但我相信社区可以为我提供一些对此有价值的见解。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

落墨 2024-08-17 14:49:52

使用适合工作的正确工具。

有很多反 RDBMS 或 BASE 系统（基本可用、软状态、最终一致），而不是 ACID（原子性、一致性、隔离性、持久性）可供选择此处和此处。

我使用过传统的 RDBMS，虽然您可以存储 CLOB/BLOB，但它们确实可以
没有专门为搜索这些对象而定制的内置索引。

您想要完成大部分工作（计算加权频率
插入文档时找到的每个元组）。

您可能还想做一些对有用性进行评分的工作
每次搜索后的每个 (documentId,searchWord) 对。

这样您每次都可以提供越来越好的搜索。

您还希望存储每次搜索的分数或权重并进行加权
与其他搜索的相似度得分。

某些搜索可能比其他搜索更常见，并且
用户没有正确表达他们的搜索查询，尽管他们的意思是
进行共同搜索。

插入文档也会导致搜索权重发生一些变化
索引。

我想得越多，解决方案就变得越复杂。
你必须首先从一个好的设计开始。你的因素越多
设计预期越好，结果就越好。

回复收藏 0 原文

晨敛清荷 2024-08-17 14:49:52

MapReduce 似乎是生成元组的好方法。如果你可以将 scala 作业放入 jar 文件中（不确定，因为我以前没有使用过 scala 并且是 jvm n00b），那么将其发送并编写一些包装器来运行它就很简单了在地图上减少集群。

至于完成后存储元组，您可能还需要考虑基于文档的数据库，例如 mongodb如果你只是存储元组。

一般来说，听起来你正在对文本做一些更统计的事情...你是否考虑过简单地使用 lucene 或 solr 来完成你正在做的事情，而不是自己编写？

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

433 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

琉璃梦幻

文章 0 评论 0

qq_4zWU6L

文章 0 评论 0

话少情深

文章 0 评论 0

西西弗的石头怪

文章 0 评论 0

彻夜缠绵

文章 0 评论 0

千寻…

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文