当前位置：文江博客话题详情

hadoop MapReduce storage bigtable

实施大规模日志文件分析

发布于 2024-07-17 09:02:17 字数 457 浏览 12 评论 0原文

任何人都可以向我指出参考资料或提供有关 Facebook、雅虎、谷歌等公司如何执行大规模（例如多 TB 范围）日志分析的参考信息或提供其为运营（尤其是网络分析）所做的大规模（例如，多 TB 范围）日志分析吗？

特别关注网络分析，我对两个密切相关的方面感兴趣：查询性能和数据存储。

我知道一般方法是使用 MapReduce 将每个查询分布在集群上（例如使用 Hadoop）。但是，最有效的存储格式是什么？这是日志数据，因此我们可以假设每个事件都有时间戳，并且通常数据是结构化的而不是稀疏的。大多数网络分析查询涉及分析两个任意时间戳之间的数据片段并检索该数据中的聚合统计信息或异常情况。

像 Big Table（或 HBase）这样的面向列的数据库是否是存储（更重要的是，查询此类数据）的有效方法？您选择行子集（基于时间戳）的事实是否违背了此类存储的基本前提？将其存储为非结构化数据会更好吗，例如。反向索引？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

一口甜 2024-07-24 09:02:17

不幸的是，没有一刀切的答案。

我目前正在使用 Cascading、Hadoop、S3 和 Aster Data 通过 AWS 内部的分阶段管道每天处理 100 场演出。

Aster Data 用于查询和报告，因为它为 Hadoop 上的 Cascading 进程清理和解析的海量数据集提供了 SQL 接口。使用 Cascading JDBC 接口，加载 Aster 数据是一个非常简单的过程。

请记住，HBase 和 Hypertable 等工具是键/值存储，因此，如果没有 MapReduce/Cascading 应用程序的帮助来执行带外联接，请勿执行即席查询和联接，这是一种非常有用的模式。

坦白说，我是 Cascading 项目的开发人员。

http://www.asterdata.com/

http://www.cascading.org/

回复收藏 0 原文

浅忆 2024-07-24 09:02:17

O'Reilly 的《Hadoop：权威指南》一书中有一章讨论了如何在两家现实世界的公司中使用 hadoop。

http://my.safaribooksonline.com/9780596521974/ch14

回复收藏 0 原文

勿忘心安 2024-07-24 09:02:17

请参阅 Google 的解释数据：使用 Sawzall 进行并行分析论文。这是一篇关于 Google 用于日志分析的工具的论文。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

琉璃梦幻

文章 0 评论 0

qq_4zWU6L

文章 0 评论 0

话少情深

文章 0 评论 0

西西弗的石头怪

文章 0 评论 0

彻夜缠绵

文章 0 评论 0

千寻…

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文