当前位置：文江博客话题详情

使用 PIG 进行文本解析

发布于 2025-01-01 01:09:00 字数 122 浏览 6 评论 0原文

我是 PIG 的新手，对此不太了解。我如何解析 PIG 中的文本？要读取字段的值，pig 中有一个位置参数的概念，例如 $0 对应于第一个字段，类似地，是否有任何像位置参数这样的功能可以读取整行。RADOOP 到底可以在哪里使用？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

岁月染过的梦 2025-01-08 01:09:00

您的问题表明您希望与数据进行某种交互模式，但该数据量很大。

RADOOP 是 R 和 Hadoop 的组合，它应该能够为您提供一个 GUI，通过使用 Hadoop Scale 处理的一些 R 统计分析来运行您的大数据。

同时，我建议您看一下 Google-Refine (http://code. google.com/p/google-refine/），您可以轻松下载并使用它运行数据证据流程。

借助 Google-Refine，您可以使用内置文本、日期和数字函数轻松解析数据。您还可以使用 Jython 来进一步增强所需的功能。它可以通过对数据进行采样来处理大规模数据，并使用内置 Facets 研究其功能。 See example of Facets

R 是也是一个很棒的数据证据工具，具有良好的采样和其他统计分析库。但其界面基于命令行，面向高级统计学家和分析师，而不是普通用户。

回复收藏 0 原文

翻了热茶 2025-01-08 01:09:00

对于文本解析，首先可以阅读PIG的教程和wordcount示例。

链接如下：

猪教程
字数统计示例 - 从此链接阅读字数统计示例并关联教程中给出的命令。

回复收藏 0 原文

扶醉桌前 2025-01-08 01:09:00

我不太确定你在问什么。 Pig 有许多有用的功能，例如 TOKENIZE 和正则表达式匹配/提取 UDF。当然，您也可以用 Java 或 Python 编写任何您喜欢的文本处理代码，并调用它。

回复收藏 0 原文

徒留西风 2025-01-08 01:09:00

我想您是在要求不要标记整行，只需将整行作为一个字段，对吗？

然后，我认为你可以使用 PigStorage('\n')，使用 '\n' 作为字段分隔符，将整行视为一个字段。

我认为你的“RADOOP”是指 hadoop，对吧？第一步，您可以在本地模式下运行 Pig，这意味着您不需要安装 hadoop。

回复收藏 0 原文

~没有更多了~

关于作者

维持三分热

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

使用 PIG 进行文本解析

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

使用 PIG 进行文本解析

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。