当前位置：文江博客话题详情

使用 Hadoop 处理来自 Web 服务器的实时日志

发布于 2024-08-24 00:47:40 字数 110 浏览 6 评论 0原文

我想使用 Hadoop (Amazon Elastic mapreduce) 处理来自 Web 服务器的日志。我用谷歌搜索帮助，但没有什么用处。我想知道是否可以做到这一点，或者是否有其他方法可以做到这一点。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

莫多说 2024-08-31 00:47:40

Hadoop通常以离线方式使用。所以我宁愿定期处理日志。

在我之前参与的一个项目中，我们让服务器生成每小时轮换一次的日志文件（每小时 x:00）。我们有一个每小时运行一次的脚本（每小时 x:30）将文件上传到 HDFS（那些尚未存在的文件）。然后，您可以在 Hadoop 中随意运行作业来处理这些文件。

我确信还有更好的实时替代方案。

回复收藏 0 原文

帝王念 2024-08-31 00:47:40

Hadoop 不用于实时处理。但它可以用于按小时处理日志，可能会落后一小时，这接近实时。我想知道处理日志的需要是什么。

回复收藏 0 原文

才能让你更想念 2024-08-31 00:47:40

您可以尝试使用 Flume 作为日志收集器并将它们存储在 S3 中进行批处理：

http://www.cloudera.com/blog/2011/02/distributed-flume-setup-with-an-s3-sink/

回复收藏 0 原文

相思碎 2024-08-31 00:47:40

如果您想要真正的实时处理，您可能需要看看 Twitter 的 Storm，它是开源的，托管在 GitHub 上。教程在这里。

看起来它正在大公司用于生产。

在这一点上，我自己不使用 Storm，实际上做了类似于问题和回复中提到的事情：

使用 Apache 记录事件（使用循环日志每 15/30 分钟更改日志文件）
每隔一次上传它们经常向 S3
向现有 Hadoop 集群（在 Amazon EMR 上）添加新步骤

使用 Hadoop，您可以通过经常在集群上运行批处理并仅添加新作业来接近实时，但不是真正的实时。为此你需要 Storm 或类似的东西。

回复收藏 0 原文

~没有更多了~

关于作者

哭了丶谁疼

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

使用 Hadoop 处理来自 Web 服务器的实时日志

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

使用 Hadoop 处理来自 Web 服务器的实时日志

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。