当前位置：文江博客话题详情

SQL：连接与非规范化（大量数据）

发布于 2024-12-09 04:01:38 字数 855 浏览 5 评论 0原文

我知道，这个问题的变体以前曾被问过。但我的情况可能有点不同:-)

所以，我正在建立一个跟踪事件的网站。每个事件都有 id 和值。它也是由用户执行的，该用户有id、年龄、性别、城市、国家和等级。（这些属性都是整数，如果重要的话）

我需要能够快速获得两个查询的答案：

获取具有特定配置文件的用户的事件数（例如，来自俄罗斯莫斯科的 18-25 岁男性）
获取总和（也可能是平均值）来自具有特定配置文件的用户的事件值 -

此外，数据是由多个客户生成的，而这些客户又可以有多个 source_id。

访问模式：数据主要由收集器进程写入，但在查询时（不常见，通过 Web UI）它必须快速响应。

我期望有大量数据，当然不止一个表或单个服务器可以处理。

我正在考虑每天将事件分组到不同的表中（即“events_20111011”）。另外，我想在表名前添加客户 ID 和源 ID，以便数据被隔离并且可以轻松丢弃（清除旧数据）并且相对容易地移动（将负载分配到其他机器）。这样，每个这样的表的行数就会受到限制，比方说，最多 10M。

那么，问题是：如何处理用户的属性？

选项 1，标准化：将它们存储在单独的表中并从事件表中引用。

(pro) 没有重复的数据。
（反对）连接，这是昂贵的（或左右）我听说）。
（缺点）这需要用户表和事件表打开同一服务器

选项2，冗余：将用户属性存储在事件表中并为其建立索引。

（优点）更容易负载平衡（独立的表可以四处移动）
（优点）更简单（更快？）查询
（缺点）大量磁盘空间和内存用于重复用户属性和相应索引

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心如狂蝶 2024-12-16 04:01:38

您的设计应该标准化，但由于性能原因，您的物理模式可能最终会非标准化。

是否可以两者兼得？ SQL Server 附带分析服务器是有原因的。即使您不在 Microsoft 领域，拥有一个用于数据输入和日常处理的事务系统也是一种常见的设计，同时报告系统可用于可能会给事务系统带来沉重负载的各种查询。

这样做意味着您可以两全其美：用于日常操作的规范化系统和用于汇总查询的非规范化系统。

在大多数情况下，每晚更新对于报告系统来说很好，但这取决于您的操作时间和其他因素，什么最有效。我发现大多数 8-5 家企业晚上都有足够的时间来更新报告系统。

回复收藏 0 原文

阳光下的泡沫是彩色的 2024-12-16 04:01:38

使用 OLAP/数据仓库方法。也就是说，以标准规范化方式存储数据，同时还将经常查询的数据的聚合版本存储在单独的事实表中。用户查询不会针对实时数据，但为了性能权衡通常是值得的。

另外，如果您使用的是 SQL Server 企业版，我不会推出您自己的水平分区方案（将数据分成几天）。 SQL Server 中内置了一些工具可以自动为您执行此操作。

回复收藏 0 原文

み零 2024-12-16 04:01:38

请规范

使用分区和索引来平衡负载

回复收藏 0 原文

~没有更多了~

关于作者

酷遇一生

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

SQL：连接与非规范化（大量数据）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

SQL：连接与非规范化（大量数据）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。