从线上实时下载海量文件到HDFS有哪些方案?
最近公司想把上千台服务器上生成在一个文件夹下的日志文件(5分钟生成一个)实时下载到3台HDFS上,但是文件量大,HDFS带宽有限,网路上需要压缩。是否有合适的方案?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
最近公司想把上千台服务器上生成在一个文件夹下的日志文件(5分钟生成一个)实时下载到3台HDFS上,但是文件量大,HDFS带宽有限,网路上需要压缩。是否有合适的方案?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(1)
1.合并文件上传:建议将5分钟一个文件先在相应的服务器合并为1个小时一个文件再压缩上传到HDFS,并记录当前上传的文件,这样当上传失败时从记录的失败文件开始继续上传。
2.控制上传宽带占用:为了避免上传过程中大量占用大量宽带导致线上服务器正常任务运行,可以控制上传的带宽占用匀速上传。