低延迟读写的持久化策略

发布于 2024-08-11 12:35:28 字数 657 浏览 19 评论 0原文

我正在构建一个应用程序，其中包含以或多或少的交互方式批量标记数百万条记录的功能。用户交互与 Gmail 非常相似，用户可以标记单封电子邮件，或批量标记大量电子邮件。我还需要快速读取这些标签成员身份，并且读取模式或多或少是随机的。

现在我们使用 Mysql 并为每个标签-文档对插入一行。即使进行批量插入和大量优化，将数百万行写入 Mysql 也需要一段时间（高 I/O）。我们需要这是一个交互式过程，而不是批处理过程。

对于我们存储和读取的数据，数据的一致性和可用性并不像性能和可扩展性那么重要。因此，如果在写入时发生系统故障，我可以处理一些数据丢失的情况。然而，数据在某些时候肯定需要持久化到辅助存储。

因此，总而言之，以下是要求：

潜在数千万条记录的低延迟批量写入
数据需要以某种方式持久化
低延迟随机读取
不需要持久写入
最终一致性是可以的

以下是我看过的一些解决方案at：

写入缓存（Terracotta、Gigaspaces、Coherence），其中记录被写入内存并异步排出到数据库。这些让我有点害怕，因为它们似乎给应用程序增加了一定程度的复杂性，而我想避免这种情况。
高度可扩展的键值存储，例如 MongoDB、HBase、Tokyo Tyrant

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

初雪 2024-08-18 12:35:28

如果您有预算为此使用 Coherence，我强烈建议您这样做。 Coherence 直接支持 write-behind、最终一致性行为，并且对于数据库中断和 Coherence 集群节点中断都具有良好的生存能力（如果您在单独的 JVM 上使用 >= 3 个 Coherence 节点，最好是在单独的主机上）。我已经实现了这一点，为财富 100 强公司的电子商务网站进行大容量 CRM，效果非常好。

该架构的最佳方面之一是，您编写 Java 应用程序代码时就好像没有发生任何后写行为，然后插入使之发生的 Coherence 拓扑和配置。如果您稍后需要更改 Coherence 的行为或拓扑，则无需对应用程序进行任何更改。我知道可能有一些合理的方法可以做到这一点，但这种行为在 Coherence 中得到直接支持，而不是必须发明或手动执行一种方法。

说得更清楚一点——您担心增加应用程序的复杂性是一件好事。使用 Coherence，您只需将更新写入缓存（或者如果您使用 Hibernate，它可以是 L2 缓存提供程序）。根据您的 Coherence 配置和拓扑，您可以选择部署应用程序以使用后写式分布式缓存。因此，由于缓存的功能，您的应用程序不会变得更加复杂（并且坦率地说，您没有意识到）。

最后，我在 2005 年至 2007 年实施了上述解决方案，当时 Coherence 由 Tangosol 开发，他们得到了最好的支持。我不确定现在 Oracle 的情况如何——希望仍然很好。

回复收藏 0 原文