Hive - 从 zip 文件创建表

发布于 2024-11-15 23:46:26 字数 145 浏览 1 评论 0原文

我有一堆 CSV 的 zip 文件,我想从中创建 Hive 表。我正在尝试找出最好的方法是什么。

  • 解压文件,上传到HDFS。
  • 有没有办法将文件复制到 HDFS,解压
  • 或者还有其他更好/推荐的方法吗?

I have bunch of zip files of CSVs, that I want to create Hive table from. I'm trying to figure out what's the best way to do so.

  • Unzip the files, upload them to HDFS.
  • Is there a way to copy the files to HDFS, unzip the
  • Or is there any other better / recommended way?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

与酒说心事 2024-11-22 23:46:26

通常的做法是将 CSV 文件转换为制表符分隔或 Ctrl A 或 Ctrl B 分隔,然后将其上传到 Hadoop/Hive。

要将文件上传到 HDFS,您可以使用以下命令 -

hadoop fs -put file_to_uplload hdfs_path

我假设您想自动化此操作。在这种情况下,遵循说明将会有所帮助。

  1. 创建 hive 表,其中列映射到 CSV 文件字段。(您可以在此步骤删除不必要的字段)。在 hive create table 语句中选择分隔符。

  2. 将 csv 文件转换为分隔格式(Ctrl A 或 Ctrl B)

  3. 将文件上传到 Hive 表位置。

您可以使用 python 批处理脚本/框架自动化执行步骤。

进一步阅读:
http://wiki.apache.org/hadoop/Hive/GettingStarted

It's common practice to convert CSV files to tab separated or Ctrl A , or Ctrl B delimited and then upload it to Hadoop/Hive.

To upload files to HDFS you can use following command -

hadoop fs -put file_to_uplload hdfs_path

I assume you would like to automate this. In that case following instructions will be helpful.

  1. Create hive table with columns mapping to CSV files fileds.(you can remove unnecessary fields at this step). Choose your delimiter in hive create table statement.

  2. Convert csv files to delimited format (Ctrl A or Ctrl B)

  3. Upload files to Hive table location.

You can automate about steps using python batch processing scripts/framework.

For further reading :
http://wiki.apache.org/hadoop/Hive/GettingStarted

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文