存储数百万个日志文件 - 每年约 25 TB

发布于 2024-09-26 22:03:48 字数 382 浏览 8 评论 0原文

作为我工作的一部分，我们每年获得大约 25TB 的日志文件，目前它保存在基于 NFS 的文件系统上。有些以 zipped/tar.gz 的形式存档，而另一些则以纯文本格式保存。

我正在寻找使用基于 NFS 的系统的替代方案。我研究了 MongoDB、CouchDB。事实上，它们是面向文档的数据库，这一事实似乎使其非常适合。但是，日志文件内容需要更改为 JSON 才能存储到数据库中。有件事我不愿意做。我需要按原样保留日志文件内容。

至于使用，我们打算放置一个小型 REST API，并允许人们获取文件列表、最新文件以及获取文件的能力。

所提出的解决方案/想法需要是应用程序级别的某种形式的分布式数据库或文件系统，其中可以存储日志文件，并且可以通过添加更多机器来有效地水平扩展。

安库尔

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

贵在坚持 2024-10-03 22:03:48

由于您不需要查询功能，因此可以使用 apache hadoop。

我相信 HDFS 和 HBase 非常适合这个。

您可以在 Hadoop powered by 页面中看到许多巨大的存储故事

回复收藏 0 原文

旧竹 2024-10-03 22:03:48

看一下 Vertica，这是一个支持并行处理和快速查询的列式数据库。 Comcast 使用它来分析大约 15GB/天的 SNMP 数据，平均运行速度使用五台四核 HP Proliant 服务器，采样率达到每秒 46,000 个样本。几周前，我听到康卡斯特的一些运营人员对 Vertica 赞不绝口；他们仍然非常喜欢它。它有一些很好的数据压缩技术和“k-安全冗余”，因此它们可以省去 SAN。

更新：可扩展分析数据库方法的主要优点之一是您可以对日志进行一些非常复杂的、准实时的查询。这对于您的运营团队来说可能非常有价值。

回复收藏 0 原文

原来是傀儡 2024-10-03 22:03:48

你试过看 gluster 吗？它具有可扩展性，提供复制和许多其他功能。它还为您提供标准文件操作，因此无需实现另一个 API 层。

http://www.gluster.org/

回复收藏 0 原文

鞋纸虽美，但不合脚ㄋ〞 2024-10-03 22:03:48

我强烈不建议使用键/值或基于文档的存储来存储这些数据（mongo、cassandra 等）。使用文件系统。这是因为文件太大，并且访问模式将是线性扫描。您将遇到的一件事是保留。大多数“NoSQL”存储系统都使用逻辑删除，这意味着您必须压缩数据库才能删除已删除的行。如果您的单个日志记录很小并且您必须为每一个日志记录建立索引，那么您还会遇到问题 - 您的索引将非常大。

将数据放入 HDFS 中，采用 64 MB 块的 2-3 路复制，格式与现在相同。

回复收藏 0 原文