社交应用程序的数据库设计和优化注意事项

发布于 2024-10-26 03:52:00 字数 730 浏览 4 评论 0原文

通常的情况。我有一个简单的应用程序，允许人们上传照片并关注其他人。因此，每个用户都会有类似“墙”或“活动源”的东西，他或她可以在其中看到他/她的朋友（他或她关注的人）上传的最新照片。

大多数功能都很容易实现。然而，当涉及到这个历史活动源时，由于纯粹的性能原因，事情很容易变得一团糟。

我在这里遇到了以下困境：我可以轻松地将活动源设计为数据库的规范化部分，这将节省我的编写周期，但会极大地增加为每个用户选择这些结果时的复杂性（对于在特定时间段内上传的每张照片，选择特定数量，我关注的上传者/对于我关注的每个人，选择他的照片）

优化选项可以是引入一系列阈值约束，例如，允许我根据日期对我关注的人进行排序他们最后上传的照片，甚至排除一些，以节省周期，并且对于每个用户，仅选择 5 张（例如）最后上传的照片。

第二种方法是为活动提要引入完全非规范化的模式，其中每一行代表我的一位关注者的通知。这意味着我每次上传照片时，DB都会在这个“drop Bucket”中放入n行，n表示我关注的人数，即大量的写入周期。不过，如果我有这样一个表，我可以轻松地应用一些优化技术，例如巧妙的索引，以及修剪早于特定时间段（队列）的条目。

然而，我想到的第三种方法是一种不太非规范化的模式，其中服务器端应用程序将消除数据库的部分复杂性。我发现一些社交应用程序（例如friendfeed）严重依赖于数据库中序列化对象（例如JSON对象）的存储。

我肯定仍然掌握可扩展数据库设计的技能，所以我确信我错过了很多东西，或者仍然需要学习。如果有人至少能为我指明正确的方向，我将不胜感激。

原文

The usual case. I have a simple app that will allow people to upload photos and follow other people. As a result, every user will have something like a "wall" or an "activity feed" where he or she sees the latest photos uploaded from his/her friends (people he or she follows).

Most of the functionalities are easy to implement. However, when it comes to this history activity feed, things can easily turn into a mess because of pure performance reasons.

I have come to the following dilemma here:
i can easily design the activity feed as a normalized part of the database, which will save me writing cycles, but will enormously increase the complexity when selecting those results for each user (for each photo uploaded within a certain time period, select a certain number, whose uploaders I am following / for each person I follow, select his photos )

An optimization option could be the introduction of a series of threshold constraints which, for instance would allow me to order the people I follow on the basis of the date of their last upload, even exclude some, to save cycles, and for each user, select only the 5 (for example) last uploaded photos.

The second approach is to introduce a completely denormalized schema for the activity feed, in which every row represents a notification for one of my followers. This means that every time I upload a photo, the DB will put n rows in this "drop bucket", n meaning the number of people I follow, i.e. lots of writing cycles. If I have such a table, though, I could easily apply some optimization techniques such as clever indexing, as well as pruning entries older than a certain period of time (queue).

Yet, a third approach that comes to mind, is even a less denormalized schema where the server side application will take some part of the complexity off the DB. I saw that some social apps such as friendfeed, heavily rely on the storage of serialized objects such as JSON objects in the DB.

I am definitely still mastering the skill of scalable DB design, so I am sure that there are many things I've missed, or still to learn. I would highly appreciate it if someone could give me at least a light in the right direction.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心的憧憬 2024-11-02 03:52:00

如果您的申请成功，那么很有可能您的读取次数将多于写入次数 - 我只上传一次照片（写入），但我的每个朋友在刷新提要时都会读取它。因此，您应该优化快速读取，而不是快速写入，这指向非规范化模式的方向。

这里的问题是，如果您拥有大量用户，您创建的数据量可能很快就会失控。非常大的表很难在数据库上查询，因此再次存在潜在的性能问题。（还有一个问题是是否有足够的存储空间，但这更容易解决）。

如果按照您的建议，您可以在一段时间后删除行，那么这可能是一个很好的解决方案。随着您的成长和遇到性能问题，您可以减少该时间（最多一定程度）。

关于存储序列化对象，如果这些对象是不可变的（写入后不会更改它们）并且不需要对它们进行索引或查询，那么这是一个不错的选择。请注意，如果您对数据进行非规范化，则可能意味着您有一个用于活动源的表。在这种情况下，我认为存储 blob 几乎没有什么好处。
如果您要采用序列化对象的方式，请考虑使用一些 NoSQL 解决方案，例如 CouchDB - 它们针对处理此类数据进行了更好的优化，因此原则上您应该在相同的硬件设置下获得更好的性能。
请注意，我并不是建议您将所有数据移至 NoSQL - 仅针对它是更好的解决方案的部分。

最后，从经验来看，需要注意的是：构建可扩展的应用程序非常困难，并且需要将时间花在其他地方。在担心如何为数百万用户提供服务之前，您应该花时间考虑如何让数百万用户使用您的应用程序 - 第一个是更困难的问题。当您取得巨大成功时，您可以重新架构并重建您的应用程序。

回复收藏 0 原文

只为守护你 2024-11-02 03:52:00

您可以采取多种选择

添加更多硬件，内存、CPU - 输入云托管
24GB 内存听起来怎么样？ 大多数重要访问的数据库信息都可以放在内存中。
选择具有可扩展SSD的主机。
在应用程序中使用基于事件的系统来写入所有用户的“历史记录”。所以它会像这样：id, user_id, event_name, date, event_parameters' - 例如：1, 8, CHANGED_PROFILE_PICTURE, 26-03-2011 12:34, < ;图片的id>和最重要的是，这个表将在内存中。不再需要担心写入性能。记录过去（即 3 天）后，如果用户选择返回那么远的时间，则可以将它们清除到另一个表（在非内存中）并包含在查询结果中。通过将所有这些都放在一个表中，您无需执行多个查询和 SELECT 来构建此信息。
考虑对历史记录/提要表使用 INNODB。

值得阅读的好资源

回复收藏 0 原文

樱娆 2024-11-02 03:52:00

我可能会从使用规范化模式开始，以便您可以快速而紧凑地编写。然后使用非事务性（无锁定）读取将信息拉回，确保使用游标，以便您可以在结果返回时对其进行处理，而不是等待整个结果集。由于听起来这些信息没有任何特定的关键含义，因此您实际上不需要担心通常会阻止您进行事务性读取的问题锁定。

回复收藏 0 原文

如果没有 2024-11-02 03:52:00

这些问题就是目前使用 NOSql 解决方案的原因。我在之前的项目中所做的事情非常简单。我不会在内存存储中保留仅包含 feed'id 的 user->wall user->history（我最喜欢的是 redis）。因此，在每次插入中，我都会对数据库执行 1 次插入操作，并在内存存储中执行（n*读取优化）插入操作。我设计内存存储来优化我的读取。如果我想过滤视频的用户历史记录（或墙），我会将推送 feedid 放入诸如 user::{userid}::wall::videos 之类的列表中。

当然，您也可以纯粹在内存存储中构建系统，但是有两个系统做它们最擅长的事情是很好的。

编辑：
查看这些应用程序以获得一个想法：

http://retwis.antirez.com/

http://twissandra.com/

回复收藏 0 原文