需要帮助选择正确的 mysql 数据库分片、集群或分区方法

发布于 2024-11-04 18:07:45 字数 216 浏览 12 评论 0原文

我正在开发一个将使用三个表的应用程序。 1 - 100 万行产品。 2 - 5 亿行用户。 3 - 100亿行用户喜欢的产品。表格会随着时间的推移而增长，但会保持在这些数字附近。我想为这种数据库选择正确的方法。我真的不太了解分片、集群或分区，但如果你们中的一些人能告诉我这个问题的最佳解决方案，我将专注于它，这将是一个巨大的帮助。我只想要支持 mysql 的方法，如果我需要多个服务器来支持这种数据库？谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

岁月打碎记忆 2024-11-11 18:07:46

您可以非常轻松地对该数据集进行分片，但您可能不必这样做，具体取决于您尝试执行的分析类型。如果这只是每个用户喜欢的历史记录，那么您可以使用数据库分区按日期范围对数据进行分区，然后根据 user_id 进行子分区。

如果您经常更新日期（用户可以“不喜欢”某些东西），那么您可能需要考虑分片。这里有一个分片实现示例：Shard-Key-Mapper。您可以在此处对数据集执行分布式并行查询（例如 SQL 的 map/reduce）：Shard-Query< /a>.

如果您进行分片，我应该建议按 user_id 进行分片并将产品表保留为“共享”表，该表在每个分片上重复。您应该使用基于目录的分片方法，该方法允许您在分片之间移动用户。有关单个用户的所有信息以及有关他们喜欢的内容的信息将一起存储在一个分片上。

回复收藏 0 原文

錯遇了你 2024-11-11 18:07:46

我认为如果你真的不想要像 Hadoop 这样的 noSQL 解决方案，你就无法避免获得多个数据库（此处：MySQL）服务器。在我看来，MySQL 复制并不能为此类数据提供足够的可扩展性，因为主服务器将成为瓶颈。我也不是可扩展性专业人士，但我目前也在为我身边的类似问题考虑一个很好的解决方案。我想我会采用分片解决方案，将数据分区到多个节点上。我只是在考虑一种智能方法来创建从数据到分片的映射。但这取决于您的应用程序想要如何制作它。我认为您的“产品喜好”数据非常适合分区，因为它非常庞大。

顺便说一句：一篇有趣的文章反对分片：http://37signals.com/svn/posts/1509-mr-moore-gets-to-punt-on-sharding

回复收藏 0 原文

~没有更多了~