如何检查文件是否基于文本？

发布于 2024-09-19 11:28:03 字数 190 浏览 7 评论 0原文

我正在开发一个小型文本替换应用程序，它基本上可以让用户选择一个文件并替换其中的文本，而无需打开文件本身。但是，我想确保该函数仅针对基于文本的文件运行。我以为可以通过检查文件的编码来完成此操作，但我发现记事本 .txt 文件使用 Unicode UTF-8 编码，MS Paint .bmp 文件也是如此。有没有一种简单的方法来检查这一点而不对文件扩展名本身施加限制？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

神魇的王 2024-09-26 11:28:03

除非你从某处得到巨大的提示，否则你就会陷入困境。纯粹通过检查字节，考虑到过多的编码（“ASCII”、Unicode、UTF-8、DBCS、MBCS 等），您猜错的概率非零。哦，如果第一页碰巧看起来像 ASCII，但下一页是指向第一页的 btree 节点怎么办？

提示可以是：

扩展名（foo.exe 不太可能是可编辑的）
流本身中的某些内容（如 BOM [字节顺序标记]）
用户方向（只需编辑文件，goshdarnit）

Windows 曾经提供一个 API IsTextUnicode 来进行概率检查，但存在众所周知的误报。

我的看法是，试图比用户更聪明会遇到一些问题......

回复收藏 0 原文

回眸一遍 2024-09-26 11:28:03

老实说，考虑到您正在使用的 Windows 环境，我会考虑使用已知文本格式的白名单。 Windows 用户通常接受过坚持使用扩展的培训。但是，我个人会放松它不适用于非文本文件的要求，而是与用户检查文件是否与内部白名单不匹配。如果您的搜索字符串很长，则更改二进制文件的风险将会降低 - 假设您没有执行 Y2K 转换（如 sed 's/y/k/g'）。

回复收藏 0 原文

不弃不离 2024-09-26 11:28:03

确定文件是否基于文本（即二进制文件）的成本相当高。无论文件编码如何，您都必须检查文件中的每个字节以确定它是否是有效字符。

回复收藏 0 原文

埋葬我深情 2024-09-26 11:28:03

其他人说要查看文件中的所有字节，看看它们是否是字母数字。一些 UNIX/Linux 实用程序会这样做，但只是检查文件的前 1K 或 2K 作为“乐观优化”。

回复收藏 0 原文

故事↓在人 2024-09-26 11:28:03

那么文本文件包含文本，对吧？因此，检查文件是否仅包含文本的一个非常简单的方法是读取它并检查它是否包含字母数字字符。

所以基本上你要做的第一件事就是检查文件编码是否是纯 ASCII 你有一个简单的任务只需将整个文件读入 char 数组（我假设你正在用 C/C++ 或类似的语言进行）并使用函数 isalpha 和 isdigit ...当然你必须注意特殊的例外，比如制表符 '\t' 空格' ' 或换行符（在 linux 中为 '\n'，在 windows 中为 '\r'\'n'）。

如果使用不同的编码，则过程是相同的，除了您必须使用不同的函数来检查当前是否是字符是字母数字字符...还要注意，在 UTF-16 或更大的情况下，简单的 char 数组太小...但是如果您在 C# 中执行此操作，则不必担心大小:)

回复收藏 0 原文

星星的轨迹 2024-09-26 11:28:03

您可以编写一个函数来尝试确定文件是否基于文本。虽然这不是 100% 准确，但对您来说可能已经足够了。这样的函数不需要遍历整个文件，大约 1 KB 就足够了（甚至更少）。要做的一件事是计算有多少空格和换行符。另一件事是考虑各个字节并检查它们是否是字母数字。通过一些实验，你应该能够想出一个像样的函数。请注意，这只是一种基本方法，文本编码可能会使事情变得复杂。

回复收藏 0 原文

~没有更多了~