如何从 Pig 中的关系生成自定义模式?
我有一个描述各种文章中单词的 tf-idf 值的模式。 它的描述如下:
tfidf_relation: {word: chararray,id: bytearray,tfidf: double}
这是此类数据的示例:
(cat,article_one,0.13515503603605478)
(cat,article_two,0.4054651081081644)
(dog,article_one,0.3662040962227032)
(apple,article_three,0.3662040962227032)
(orange,article_three,0.3662040962227032)
(parrot,article_one,0.13515503603605478)
(parrot,article_three,0.13515503603605478)
我想以某种形式获取输出: 猫文章_一0.13515503603605478,文章_二0.4054651081081644 等等。 问题是,如何从中建立一个包含单词 field 以及 id 和 tfidf 字段元组的关系? 像这样的事情:
X = FOREACH tfidf_relation GENERATE word, (id, tfidf);
不起作用。正确的语法是什么?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
试试这个:
输出将是
我希望这就是您正在寻找的。
Try this:
The output will be
I hope this is what you are looking for.
这可能就是您所需要的。
This is probably what you need.