当前位置：文江博客话题详情

SQL database-design triplestore

实现三重存储原子

发布于 2024-12-10 23:05:53 字数 589 浏览 0 评论 0原文

我正在尝试在 SQL 数据库之上实现我自己的三重存储（是的，我知道那里已经完成了项目），并且我正在尝试确定实现符号“原子”的最佳方法。

在简单的设计中，我们可以通过创建一个包含三个 varchar 列（称为主语、谓词、对象）的“三重”表来在 SQL 中实现三元组存储。为了节省空间，我将创建一个“原子”表，该表将存储任何主语/谓语/宾语字段中使用的唯一文本，并将这些字段更改为链接回包含其文本的原子的外键。

然而，我看到了几种实现 Atom 表的方法。

将文本存储为 varchar。
- 优点：易于索引并强制文本的唯一性。
- 缺点：它无法存储任意大的文本。
将文本存储为文本 blob，以及在查询和强制唯一性时使用的文本哈希。
- 优点：可以存储任意大的文本。
- 缺点：有点复杂。尽管很少见，但可能会发生哈希冲突，具体取决于哈希算法（md5、sha 等）。

就性能、长期可靠性和存储任何类型数据的能力而言，哪种方法更好？如果我使用哈希，是否存在对冲突的有效担忧？即使冲突很少发生，也只需要发生一次就会损坏三重存储。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

夕嗳→ 2024-12-17 23:05:53

在您能够证明这是一个瓶颈并且是需要修复的最重要的事情之前，不要浪费任何时间尝试优化它。

“为了节省空间……”不要。空间几乎是免费的。除非您拥有超过 1 TB 的数据，否则您无需担心太多。您很容易在存储上浪费更多的时间，而不是存储的价值。

varchar 解决方案可以正常工作并扩展。 “字符串池”或“原子表”的想法实际上是一个很好的想法，因为您将拥有对同一底层对象的大量引用。为什么要重复varchar？为什么不直接重复一个索引号呢？

“任意大的文本”是一个奇怪的要求。何苦呢？

Blob 通常会比较慢。哈希冲突——虽然只是一个理论上的问题——可以通过两种方式处理。首先，使用超过 32 位的哈希值。其次，碰撞不会破坏任何东西，除非你（愚蠢地）未能检查实际的斑点以查看它们是否实际上相同。如果您想避免比较整个 blob 来确认不存在冲突，请通过不同的算法保留两个哈希值。

回复收藏 0 原文

~没有更多了~

关于作者

因为看清所以看轻

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Gabu-gabumon

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

荔枝明

文章 0 评论 0

赏烟花じ飞满天

文章 0 评论 0

独守阴晴ぅ圆缺

文章 0 评论 0

¤→小豸慧

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文