Apache Pig:来自网络日志的额外查询参数

发布于 2024-10-22 05:26:43 字数 715 浏览 2 评论 0原文

我正在分析 AWS CloudFront 访问日志。

我有加载文件行的代码

    raw_logs2 =LOAD 'file:///home/ec2-user/ENWRZAC68E00M.2011-02-28-18.72jA8eGh'
  USING PigStorage('\t')
  AS (
    date: chararray, time: chararray, x_edge_location: chararray, sc_bytes: int,
    c_ip: chararray, cs_method: chararray, cs_host: chararray, cs_uri_stem: chararray,
    sc_status: chararray, cs_referer: chararray, cs_user_agent:chararray, cs_uri_query: chararray
  );

现在我正在尝试解析查询字符串参数(名称/值对):

p=searchresults&s=homesforsale&gad=&gci=FOUNTAIN%2520VALLEY&gst=CA&gzi=&k=fountainvalleyca&ts=1298918206&

如何将附加列添加到我的 raw_logs2 表中,以获取 p、s 和 gci 的值查询字符串?

I am working on analyzing AWS CloudFront access logs.

I have the code to load the lines of the file

    raw_logs2 =LOAD 'file:///home/ec2-user/ENWRZAC68E00M.2011-02-28-18.72jA8eGh'
  USING PigStorage('\t')
  AS (
    date: chararray, time: chararray, x_edge_location: chararray, sc_bytes: int,
    c_ip: chararray, cs_method: chararray, cs_host: chararray, cs_uri_stem: chararray,
    sc_status: chararray, cs_referer: chararray, cs_user_agent:chararray, cs_uri_query: chararray
  );

Now I am trying to parse the query string parameters(name/value pairs):

p=searchresults&s=homesforsale&gad=&gci=FOUNTAIN%2520VALLEY&gst=CA&gzi=&k=fountainvalleyca&ts=1298918206&

How can I add an additional columns to my raw_logs2 table for the values of p,s and gci in the query string?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

柠檬色的秋千 2024-10-29 05:26:43

一种快速的方法是使用 REGEX_EXTRACT_ALL

raw_logs = 
  GENERATE
    *, 
    FLATTEN(REGEX_EXTRACT_ALL(cs_uri_query, 'p=(.+?)&s=(.+?)&.+?gci=(.+?)&.+?')) 
      AS (p:CHARARRAY, s:CHARARRAY, gci:CHARARRAY);`

One quick way to do it is to use REGEX_EXTRACT_ALL:

raw_logs = 
  GENERATE
    *, 
    FLATTEN(REGEX_EXTRACT_ALL(cs_uri_query, 'p=(.+?)&s=(.+?)&.+?gci=(.+?)&.+?')) 
      AS (p:CHARARRAY, s:CHARARRAY, gci:CHARARRAY);`
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文