当前位置：文江博客话题详情

Hive待导入的数据是如何生成的？

发布于 2022-09-01 16:47:46 字数 274 浏览 12 评论 0

图片描述

图片摘自《Hive编程指南》随书数据

问题1：加入分隔符的过程是ETL中的清洗？还是转换？还是....？
问题2：如何自动加入这些分隔符？是根据规则写相应的分隔符添加程序吗？
问题3：关于Hive中的动态分区，是否能理解为视图的升级版？直接将‘视图’写入到分区中？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

七月上 2022-09-08 16:47:46

问题1：
分隔符可以是在生成数据的时候就按这种规则生成，如收集Apache服务器的log日志，那么可以配置log的格式的为^A分割，参见Apache Log Format 进行配置，这种数据认为是结构化数据，可以直接导入hive中的；还有一种数据是非结构化数据，这时候是需要对数据进行清洗的，清洗的过程中加入分隔符。
问题2：
如果这些分隔符都是在生成数据的时候就已经有了，那么就不需要别的动作加入分隔符了；如果需要另外的程序生成，可以自定义MapReduce程序对数据进行清洗。
问题3：
这个看怎么理解了，你可以将每一个分区当前是对原表的数据创建了一个相应的视图，但这比视图强大太多了。

回复收藏 0

~没有更多了~