如何将一个excel内的大量数据导入hdfs、或者hive?

发布于 2021-12-05 22:48:26 字数 148 浏览 969 评论 10

如何处理excel文件导入hadoop集群,在hive上建表,现在据我所知hive能直接导入数据的我们常用的txt,但是还没有excel,查了几天资料,脑子一片空白,还有就是将excel转换成txt,50多M的数据,用SAX读取太慢了,光读都要50s,请问大神们有没有什么好方法啊?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(10

风透绣罗衣 2021-12-09 15:31:17

666

倾城泪 2021-12-09 15:31:16

硬编码

梦中楼上月下 2021-12-09 15:31:13

没有什么好的方法,一般的数据读取很慢

无人问我粥可暖 2021-12-09 15:31:13

这样倒是可以,但是公司都觉得慢

梦中楼上月下 2021-12-09 15:08:01

数据清洗的过程不就先是入库转库的问题么,针对不同的数据写代码读取比较简单

恋你朝朝暮暮 2021-12-09 14:35:25

poi是好东西,但是一下子加载55m的数据到内存,就算内存不溢出,加载的时间都很慢

毁梦 2021-12-09 08:44:21

用poi写个方法不就可以吗!

檐上三寸雪 2021-12-08 21:21:57

谢谢

各自安好 2021-12-08 04:47:33

不客气

一笔一画续写前缘 2021-12-07 09:32:32

把excel导入到数据库,然后用sqoop,把数据从数据库同步到hive

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文