hadoop hive window function reduce任务卡住超时(45分钟)
求助。现有cdh5,hive版本为0.12,在对一个表大概60多成条记录进行分窗处理时(服务器配置比较高,内存256G,配置container可分配内存为130G),跑到最后一个reduce一直卡死。
最后一句日志是:org.apache.hadoop.mapred.FileInputFormat: Total input paths to process :1。
现先跑前其它数据还好好的,跑几百万条也在半小时内处理完成,后面估计是因为改动了啥配置,现在60万都跑不过去,跑几成条也很快。 怀疑是否文件损坏,使用parquet文件格式 ,hdfs高可用部署影响文件读写。
有哪位高手可以帮忙解答一下,十分感谢。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
引用来自“kelson”的评论
已确认是数据的问题,我跑其它天的数据比这天的数据大几十陪都问题,而且当天的数据也并不是所有数据都跑不过去,某一系统制造的数据才有问题,但具体是哪样的数据质量问题还不确定。
已确认是数据的问题,我跑其它天的数据比这天的数据大几十陪都问题,而且当天的数据也并不是所有数据都跑不过去,某一系统制造的数据才有问题,但具体是哪样的数据质量问题还不确定。
同问!