Hive - 从 zip 文件创建表
我有一堆 CSV 的 zip 文件,我想从中创建 Hive 表。我正在尝试找出最好的方法是什么。
- 解压文件,上传到HDFS。
- 有没有办法将文件复制到 HDFS,解压
- 或者还有其他更好/推荐的方法吗?
I have bunch of zip files of CSVs, that I want to create Hive table from. I'm trying to figure out what's the best way to do so.
- Unzip the files, upload them to HDFS.
- Is there a way to copy the files to HDFS, unzip the
- Or is there any other better / recommended way?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
通常的做法是将 CSV 文件转换为制表符分隔或 Ctrl A 或 Ctrl B 分隔,然后将其上传到 Hadoop/Hive。
要将文件上传到 HDFS,您可以使用以下命令 -
我假设您想自动化此操作。在这种情况下,遵循说明将会有所帮助。
创建 hive 表,其中列映射到 CSV 文件字段。(您可以在此步骤删除不必要的字段)。在 hive create table 语句中选择分隔符。
将 csv 文件转换为分隔格式(Ctrl A 或 Ctrl B)
您可以使用 python 批处理脚本/框架自动化执行步骤。
进一步阅读:
http://wiki.apache.org/hadoop/Hive/GettingStarted
It's common practice to convert CSV files to tab separated or Ctrl A , or Ctrl B delimited and then upload it to Hadoop/Hive.
To upload files to HDFS you can use following command -
I assume you would like to automate this. In that case following instructions will be helpful.
Create hive table with columns mapping to CSV files fileds.(you can remove unnecessary fields at this step). Choose your delimiter in hive create table statement.
Convert csv files to delimited format (Ctrl A or Ctrl B)
You can automate about steps using python batch processing scripts/framework.
For further reading :
http://wiki.apache.org/hadoop/Hive/GettingStarted