针对大数据问题的可扩展架构解决方案的建议

发布于 2024-09-08 23:41:19 字数 650 浏览 5 评论 0原文

我正在构建/架构一个商业社交网络 Web 应用程序，该应用程序有一个我认为会导致重大可扩展性问题的组件，我想获得一些关于最佳前进方式的反馈/想法。

该应用程序有一个 User 对象。这个想法是，每次新用户加入系统时，他都会根据一组因素对其他人对他的“有用性”进行排名。同样，系统上的每个其他用户都会对他/她进行排名。

但是，我担心这种方法的可扩展性影响。例如，如果有 10,000 个用户加入系统，我们谈论的是要存储到数据库中的 10,000^2 次计算。这是 1 亿条记录，因此无论是在计算这些排名所需的时间方面，还是在将其存储在数据库中方面，这显然都成为问题。

因此，我正在寻找帮助/灵感:)

我的背景是java，我一直在寻找hadoop/map-reduce作为以并行方式实现计算的可能方法，但是我真的不确定这是否可行问题适用于 MapReduce 或一般来说最好的方法是什么。

所以，我想我的查询有两个特定部分。1

）为了进行实际计算，我应该以并行方式进行这些计算，即……MapReduce是解决这个问题的好方法

2）要存储排名，我应该使用什么...标准关系数据库是一个坏主意，即...这不太适合 MySQL...我应该考虑 Cassandra、HBase 或其他 NoSQL 解决方案吗？

非常感谢任何帮助/想法。

干杯，布莱恩

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

岛歌少女 2024-09-15 23:41:19

在使用 MapReduce 的强力解决问题之前，我会尝试减少搜索空间。如果它是一个拥有 1 万用户的社交网络，这意味着对于某个特定用户来说，大多数其他用户都是不认识的，因此没有用处。

因此，我会尝试根据适合您的社交网络的标准来限制用户进行评估的空间。例如，也许可以将搜索限制为本地用户（或者首先限制为本地用户，然后进行更详尽的搜索）。 “本地”在实践中的含义取决于您的用户，其想法是基于现实世界使用一些优化。

回复收藏 0 原文

夏尔 2024-09-15 23:41:19

我建议仅存储“真实”值（由用户输入的值）。这样，用户就会对对他们有价值的其他用户进行排名，而所有其他用户都被认为是“无用的”；）。因此，您可能会为每个用户存储数百个值。我假设您不会真的让每个新用户浏览其他用户的整个列表并对它们单独进行排名，对吧？

您还可以通过建立存储两个用户评价的双向关联来减少空间需求（一条记录将用户 A 与用户 F 链接起来，并指出 A 将 F 列为 5，F 将 A 列为 3）。大致将您的空间需求减少一半，但仍然有很多记录。另外，您将需要两个用户键上的索引，因为您必须搜索两个用户键才能查找单个用户的所有记录。

回复收藏 0 原文

薔薇婲 2024-09-15 23:41:19

虽然 100m 行确实很大，但它可能没有您想象的那么大。我处理的 MySQL 数据库有一个超过 10m 行的表，该表连接到其他超过 100k 行的表，没有太多问题。重要的一点是让索引正确并提高查询效率。也许在花太多时间考虑超级架构之前，先用您认为可能包含在其中的行填充一个播放表，并编写一些您认为将要编写的查询，看看它是否易于管理。

回复收藏 0 原文

~没有更多了~