当前位置：文江博客话题详情

Apache Pig 可以从 STDIN 而不是文件加载数据吗？

发布于 2025-01-07 21:39:58 字数 114 浏览 1 评论 0原文

我想使用 Apache Pig 来转换/连接两个文件中的数据，但我想一步一步地实现它，这意味着，从真实数据中测试它，但尺寸较小（例如 10 行），是否可以使用从 STDIN 读取并输出到 STDOUT 的 Pig？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

黒涩兲箜 2025-01-14 21:39:59

基本上Hadoop以各种方式支持Streaming，但Pig最初缺乏对加载的支持通过流式传输数据。不过，还是有一些解决方案的。

您可以查看 HStreaming：

A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);

Basically Hadoop supports Streaming in various ways, but Pig originally lacked support for loading data through streaming. However there are some solutions.

You can check out HStreaming:

A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);

回复收藏 0 原文

南…巷孤猫 2025-01-14 21:39:59

答案是否定的。在任何 MR 作业可以运行数据之前，数据需要传输到集群中的数据节点上。

但是，如果您使用少量数据样本并且只想做一些简单的事情，您可以在本地模式下使用 Pig，只需将 stdin 写入本地文件并通过脚本运行它。

但更大的问题是为什么要在数据流上使用 MR/Pig？它过去和现在都不是用于此类用途。

回复收藏 0 原文

~没有更多了~

关于作者

平定天下

暂无简介

文章

575 人气

关注发私信

琉璃梦幻

文章 0 评论 0

关注

qq_4zWU6L

文章 0 评论 0

关注

话少情深

文章 0 评论 0

关注

西西弗的石头怪

文章 0 评论 0

关注

彻夜缠绵

文章 0 评论 0

关注

千寻…

文章 0 评论 0

友情链接

文江博客

Apache Pig 可以从 STDIN 而不是文件加载数据吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

Apache Pig 可以从 STDIN 而不是文件加载数据吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。