Hive待导入的数据是如何生成的?

发布于 2022-09-01 16:47:46 字数 274 浏览 12 评论 0

图片描述

图片摘自《Hive编程指南》随书数据

问题1:加入分隔符的过程是ETL中的清洗?还是转换?还是....?
问题2:如何自动加入这些分隔符?是根据规则写相应的分隔符添加程序吗?
问题3:关于Hive中的动态分区,是否能理解为视图的升级版?直接将‘视图’写入到分区中?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

七月上 2022-09-08 16:47:46

问题1:
分隔符可以是在生成数据的时候就按这种规则生成,如收集Apache服务器的log日志,那么可以配置log的格式的为^A分割,参见Apache Log Format 进行配置,这种数据认为是结构化数据,可以直接导入hive中的;还有一种数据是非结构化数据,这时候是需要对数据进行清洗的,清洗的过程中加入分隔符。
问题2:
如果这些分隔符都是在生成数据的时候就已经有了,那么就不需要别的动作加入分隔符了;如果需要另外的程序生成,可以自定义MapReduce程序对数据进行清洗。
问题3:
这个看怎么理解了,你可以将每一个分区当前是对原表的数据创建了一个相应的视图,但这比视图强大太多了。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文