针对海量数据集的 SQL 数据库设计

发布于 2024-12-06 11:27:45 字数 397 浏览 0 评论 0原文

我有一个客户，具有以下数据结构......对于每个患者，可能有多个样本，每个样本经过处理后可能有400万个数据对象。每个患者的最大样本数为 20。因此，单个患者最终可能会获得 8000 万行数据，当然最终会有数百个患者。

在设置数据库来存储对象（每个对象包含大约 30 个统计和测量字段）时，挑战非常明确 - 如何管理如此大量的数据？

我想我应该有一个数据库，每个样本都有一个表 - 所以每个表最多可能有 400 万条记录。

我的一位同事提出了一个有趣的建议，那就是更进一步——为每个患者创建一个新数据库，然后为每个样本创建一个表。他的想法是，每个患者拥有 1 个日志、能够为每个患者移动数据库等都是很好的。我不能不同意他的观点。

这合理吗？由于某种原因拥有多个数据库是一个坏主意吗？

想法？谢谢你！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

╄→承喏 2024-12-13 11:27:45

虽然从隐私和迁移的角度来看这个想法很有趣，但每个患者拥有一个数据库并不是一个好主意。考虑管理、备份每个患者数据库的文件。我什至不确定 DBMS 是否可以在一个实例或服务器中同时处理数百万个数据库。

我要做的是，接受体积数据作为实时事实，并以您选择的参数和表格类型对其进行处理。让 DBMS 担心它的规模。确保您拥有一个允许纵向扩展和横向扩展表的部署模型。每个实体一个表至少是明智的，因此对于患者、测量等而言。

只要做你作为开发人员擅长的事情，让 DBMS 做它创建的目的。

回复收藏 0 原文

半窗疏影 2024-12-13 11:27:45

当处理这么多数据时，您肯定会想要探索 MySQL 和 RDBMS 替代方案。您研究过任何 noSQL 解决方案吗？（即键值存储）。有几种开源解决方案，其中一些解决方案立即不适合此应用程序，因为任何数据丢失可能都是不可接受的。

也许尝试查看 Apache 的 Cassandra http://cassandra.apache.org/。它是一个分布式数据库系统（键值存储），但也可以在单个节点上运行。它将允许您将每个患者的所有数据存储在单个键值“即 Patient1”下，然后从那里您可以将数据组织成最适合在应用程序中查询的键值结构。

回复收藏 0 原文

~没有更多了~