如何将一个excel内的大量数据导入hdfs、或者hive?
如何处理excel文件导入hadoop集群,在hive上建表,现在据我所知hive能直接导入数据的我们常用的txt,但是还没有excel,查了几天资料,脑子一片空白,还有就是将excel转换成txt,50多M的数据,用SAX读取太慢了,光读都要50s,请问大神们有没有什么好方法啊?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(10)
666
硬编码
没有什么好的方法,一般的数据读取很慢
这样倒是可以,但是公司都觉得慢
数据清洗的过程不就先是入库转库的问题么,针对不同的数据写代码读取比较简单
poi是好东西,但是一下子加载55m的数据到内存,就算内存不溢出,加载的时间都很慢
用poi写个方法不就可以吗!
谢谢
不客气
把excel导入到数据库,然后用sqoop,把数据从数据库同步到hive