通过数据流中的Azure数据工厂的数据压缩

发布于 2025-01-17 16:15:11 字数 731 浏览 2 评论 0原文

我们有一个Azure数据工厂管道,该管道执行一个简单的数据流,该数据流从 cosmosdb 中获取数据,并在数据湖中汇集。作为目标优化逻辑,我们将分区类型用作和唯一的价值分区作为cosmosdb 标识符。目的地数据集还具有压缩类型作为 gzip 压缩级别

问题:

数据按预期进行分区,但我们看不到创建的文件的压缩。这是预期的行为还是错误?有人可以帮忙吗?

”在此处输入图像说明”

We have a Azure Data Factory Pipeline which executes a simple Data Flow which takes data from cosmosdb and sinks in Data Lake . As destination Optimize logic , we are using Partition Type as Key and unique value partition as a cosmosdb identifier. The destination Dataset also has a compression type as gzip and compression level to Fastest

Problem:

The data is partitioned as expected but we do not see the compression on the files created. Is this the expected behavior or is it a bug ? Can some one please help.

enter image description here

enter image description here

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

悲喜皆因你 2025-01-24 16:15:11

我认为您应该将压缩级别更改为:最佳
这将需要更多时间来执行,但它可以保证您的文件将在目标数据源中被压缩。

Microsoft文档中写的

级别:压缩比,最佳或最快。

最快:压缩操作应尽快完成
可能,即使结果文件未最佳地压缩。

最佳:压缩操作应最佳压缩,
即使操作需要更长的时间才能完成。

检查此链接: https://learn.microsoft.com/en-us/azure/data-factory/supported-file-file-formats-and-compression-compression-codecs-legacy

i think you should change your compression level to : Optimal
that will take more time to execute but it will guarantee that your files will be compressed in the destination data source.

as written in Microsoft docs :

Level: the compression ratio, which can be Optimal or Fastest.

Fastest: The compression operation should complete as quickly as
possible, even if the resulting file is not optimally compressed.

Optimal: The compression operation should be optimally compressed,
even if the operation takes a longer time to complete.

check this link : https://learn.microsoft.com/en-us/azure/data-factory/supported-file-formats-and-compression-codecs-legacy

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文