当前位置：文江博客话题详情

有没有办法预先确定文件是否适合压缩？

发布于 2024-10-21 04:07:23 字数 216 浏览 1 评论 0原文

我正在规划一个 .NET 项目，该项目涉及自动上传各种类型的文件，从各种分布式客户端到服务器群，有时文件扩展名可能与实际文件类型不匹配（长话短说）。

使用 HTTP 压缩并不总是一种选择，在本项目案例中，最好花费比带宽或服务器存储更多的客户端处理。但如果我们能够确定压缩是否会给出可行的结果，那么如果我们能够跳过压缩过程，那就更好了。

我知道没有“正确答案”，但我们将不胜感激任何想法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

迎风吟唱 2024-10-28 04:07:23

按文件类型过滤是个好主意。即使某些文件的扩展名错误，总体而言这应该是一个不错的选择。

例如，文本文件的压缩效果非常好。压缩 mp3、jpg/gif 或 divx 文件几乎没有用处。

回复收藏 0 原文

唯憾梦倾城 2024-10-28 04:07:23

鉴于您所说的扩展名，我可以看到几种方法：

首先：您可以在不使用扩展名的情况下确定文件的类型吗？许多文件类型都有标准标头，因此您可以解析标头并确定这是否是您已实施过滤器的十几种常见文件类型之一。

第二：一个更简单的尝试是从文件中间抓取 100 个字节，看看这是否是标准的 ascii，例如每个字节的值在 9 到 126 之间。这在给定的时间内是错误的，不会工作多种语言的文本，不适用于 unicode 文本。

回复收藏 0 原文

吃不饱 2024-10-28 04:07:23

之前你的意思是在你实际压缩或发送之前？您可能会保留一些数据并据此做出决定；将文件类型、扩展名和大小映射到压缩时间和最终大小，看看您是否可以了解哪些方法有效

回复收藏 0 原文

一生独一 2024-10-28 04:07:23

您可以尝试使用非常快的压缩器来压缩文件。如果压缩器不能充分压缩它，那么尝试更好地重新压缩它是没有用的。是的，这是一个愚蠢的想法，但从技术上讲，.zip 文件可以包含使用“存储”格式的 txt 文件（因此无需压缩），并且 .zip 具有高度可压缩性，因此没有灵丹妙药。

（从技术上讲，您可以测量文件的熵，但按照此处的建议如何计算文件的熵？，gzip它来测试它:-))

回复收藏 0 原文

只怪假的太真实 2024-10-28 04:07:23

您可以通过进行字节频率分析来获取指针，也许还可以使用 MTF 步骤将局部重复转换为更可测量的内容。成本便宜，对文件进行线性扫描。

回复收藏 0 原文

江挽川 2024-10-28 04:07:23

您可以在发送之前尝试在内部压缩每个文件的前几 KB，并查看它压缩到多少字节。如果结果看起来足够好，请在发送之前压缩整个内容。

使用这种方法时应该注意的一件事是，许多文件格式的第一个“几个”KB 可能是类似标头的数据，不代表文件的其余部分。因此，您可能想要增加样本大小，从文件的其他部分获取样本，从文件的不同部分获取多个子样本来形成样本，等等。

回复收藏 0 原文

~没有更多了~

关于作者

若有似无的小暗淡

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

有没有办法预先确定文件是否适合压缩？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

有没有办法预先确定文件是否适合压缩？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。