使用 Elastic MapReduce (PIG) 处理 CloudFront 日志

发布于 2024-09-29 23:44:06 字数 259 浏览 6 评论 0原文

我想处理 Amazon CloudFront 使用 Amazon Elastic MapReduce 创建的访问日志。

我只需要一些简单的统计数据,了解从 cloudfront 加载不同文件的次数,所以我认为我应该为此编写一个简单的 PIG 脚本。

我遇到的第一个问题是cloudfront写入gzip压缩的日志,据我所知我无法读取pig中的.gz?

关于我应该如何执行此操作有什么建议吗?我对弹性映射缩减非常陌生,因此欢迎任何有关如何构建此类工作的提示。

I would like to process the access-logs that Amazon CloudFront creates with Amazon Elastic MapReduce.

I just need some simple stats on how many times different files has been loaded from cloudfront so i thought i should just write a simple PIG-script for this.

The first problem i have is that cloudfront write the logs gzipped and as far as i know i can't read .gz in pig?

Any suggestions on how i should do this? I'm very new to elastic mapreduce so any hints on how to structure this kind of job is welcomed.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

如果没有 2024-10-06 23:44:06

抱歉,默认情况下这是有效的。在处理日志之前无需解压缩日志。我的不好。

Sorry, this works by default. No need to unzip the logs before processing them. My bad.

幸福%小乖 2024-10-06 23:44:06

您可能对 Qloudstat 感兴趣。我们将提供 CloudFront 访问日志的统计数据作为服务。

You might be interested in Qloudstat. We will offer statistics of CloudFront access logs as a service.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文