SPARK BZIP2压缩比不有效

发布于 2025-01-26 04:37:53 字数 472 浏览 8 评论 0原文

今天，在过去的几天中，您正在寻求您的帮助，并通过BZIP2压缩寻求帮助。我们需要将输出文本文件压缩为BZIP2格式。

问题在于，我们仅通过5 GB的未压缩到3.2 GB，由BZIP2压缩。看到其他项目将其5 GB文件压缩到仅400 MB，这使我想知道是否做错了什么。

这是我的代码：

iDf
  .repartition(iNbPartition)
  .write
  .option("compression","bzip2")
  .mode(SaveMode.Overwrite)
  .text(iOutputPath)

我也在导入此编解码器：

import org.apache.hadoop.io.compress.BZip2Codec

此外，我没有在Spark-Submit中设置任何配置，因为我尝试了很多没有运气的情况。

真的很感谢您的帮助。

原文

Today am seeking your help with an issue am having in the last couple of days with bzip2 compression. We need to compress our output text files into bzip2 format.

The problem is that we only pass from 5 Gb uncompressed to 3.2 Gb compressed with bzip2. Seeing other projects compressing their 5 GB files to only 400 Mb makes me wonder if am doing something wrong.

Here is my code:

iDf
  .repartition(iNbPartition)
  .write
  .option("compression","bzip2")
  .mode(SaveMode.Overwrite)
  .text(iOutputPath)

I am also importing this codec :

import org.apache.hadoop.io.compress.BZip2Codec

Besides that am not setting any configs in my spark-submit because i've tried many with no luck.

Would really appreciate your help with this.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

流星番茄 2025-02-02 04:37:53

感谢您的帮助，解决方案是在算法BZIP本身中。实际上，鉴于我的数据以随机的方式被匿名化，因此算法不再有效是非常随机的。

再次感谢

回复收藏 0 原文

~没有更多了~

关于作者

梦旅人picnic

暂无简介

文章

27 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

SPARK BZIP2压缩比不有效

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

SPARK BZIP2压缩比不有效

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。