当前位置：文江博客话题详情

Web 访问日志的实时数据仓库

发布于 2024-08-16 14:21:20 字数 732 浏览 5 评论 0原文

我们正在考虑建立一个数据仓库系统来加载我们的网络服务器生成的网络访问日志。这个想法是实时加载数据。

我们希望向用户呈现数据的折线图，并使用户能够使用维度进行向下钻取。

问题是如何平衡和设计系统，以便；

(1) 可以实时（<2 秒）获取数据并呈现给用户，

(2) 可以按小时和每天聚合数据，以及

(2) 数据量很大仍然可以存储在仓库中，并且

我们当前的数据速率约为每秒约 10 次访问，这使我们每天约 800k 行。我对 MySQL 和简单星型模式的简单测试表明，当我们有超过 800 万行时，我的查询开始花费超过 2 秒的时间。

是否有可能从这样的“简单”数据仓库获得实时查询性能，并且仍然可以存储大量数据（如果能够永远丢弃任何数据就好了）

是否有方法将数据聚合到更高分辨率的表中？

我有一种感觉，这并不是一个真正的新问题（不过我已经用谷歌搜索了很多）。也许有人可以给这样的数据仓库解决方案点分吗？我想到的就是 Splunk。

或许是我抓的太多了。

更新

我的架构如下所示；

尺寸：
- 客户端（IP 地址）
- 服务器
- 网址
事实；
- 时间戳（以秒为单位）
- 传输的字节数

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

牵你的手，一向走下去 2024-08-23 14:21:20

赛斯上面的答案是一个非常合理的答案，我相信如果你投资适当的知识和硬件，成功的机会就很大。

Mozilla 进行了大量的网络服务分析。我们每小时跟踪详细信息，并使用商业数据库产品 Vertica。这种方法非常有效，但由于它是专有的商业产品，因此具有不同的相关成本。

您可能想要研究的另一种技术是 MongoDB。它是一个文档存储数据库，具有一些使其非常适合此用例的功能。
即，上限集合（搜索 mongodb 上限集合以获取更多信息）

以及用于跟踪页面浏览量、点击量等的快速增量操作。
http://blog.mongodb.org/post/ 171353301/使用-mongodb-进行实时分析

回复收藏 0 原文

知足的幸福 2024-08-23 14:21:20

听起来这不会是一个问题。 MySQL非常快。

为了存储日志数据，请使用 MyISAM 表——它们速度更快并且非常适合 Web 服务器日志。（我认为 InnoDB 是当今新安装的默认设置 - 外键和 InnoDB 的所有其他功能对于日志表来说并不是必需的）。您还可以考虑使用合并表 -您可以将各个表保持在可管理的大小，同时仍然能够将它们作为一张大表进行访问。

如果您仍然无法跟上，那么请按顺序为自己配备更多内存、更快的磁盘、RAID 或更快的系统。

另外：永远不要丢弃数据可能是一个坏主意。如果每行大约 200 字节长，则每年至少需要 50 GB，仅用于原始日志记录数据。如果有索引，则至少乘以二。再次乘以（至少）二以进行备份。

如果您愿意，您可以保留全部数据，但在我看来，您应该考虑将原始数据存储几周，将汇总数据存储几年。对于较旧的内容，只需存储报告即可。（也就是说，除非法律要求您留下来。即使如此，也可能不会超过 3-4 年）。

回复收藏 0 原文

衣神在巴黎 2024-08-23 14:21:20

另外，请考虑分区，尤其是当您的查询主要访问最新数据时；例如，您可以设置约 550 万行的每周分区。

如果每天和每小时聚合，请考虑使用日期和时间维度 - 您没有列出它们，所以我假设您没有使用它们。这个想法是不在查询中包含任何函数，例如 HOUR(myTimestamp) 或 DATE(myTimestamp)。日期维度的分区方式应与事实表相同。

有了这个，查询优化器就可以使用分区修剪，因此表的总大小不会像以前那样影响查询响应。

回复收藏 0 原文

可爱暴击 2024-08-23 14:21:20

这已经成为一个相当常见的数据仓库应用程序。我已经运行一个程序多年，每天支持 20-1 亿行，响应时间为 0.1 秒（来自数据库），来自 Web 服务器的响应时间超过一秒。这甚至不在大型服务器上。

您的数据量不太大，所以我认为您不需要非常昂贵的硬件。但我仍然会选择多核、64 位和大量内存。

但是您希望主要访问聚合数据而不是详细数据 - 特别是对于数天、数月等的时间序列图表。聚合数据可以通过异步过程定期在数据库上创建，或者在这种情况下通常可以工作如果转换数据的 ETL 流程能够创建聚合数据，那就最好了。请注意，聚合通常只是事实表的分组依据。

正如其他人所说 - 访问详细数据时分区是一个好主意。但这对于汇总数据来说并不那么重要。此外，对预先创建的维度值的依赖比对函数或存储过程的依赖要好得多。这两种都是典型的数据仓库策略。

关于数据库 - 如果是我，我会尝试 Postgresql 而不是 MySQL。原因主要是优化器成熟度：postgresql 可以更好地处理您可能运行的查询类型。 MySQL 更容易对五路连接感到困惑，当你运行子查询时会自下而上，等等。如果这个应用程序很有价值，那么我会考虑商业数据库，如 db2、oracle、sql server。然后，您将获得额外的功能，例如查询并行性、针对聚合表的自动查询重写、额外的优化器复杂性等。

回复收藏 0 原文

~没有更多了~