如何检测文本文件的编码/代码页？

发布于 2024-07-05 07:27:56 字数 679 浏览 8 评论 0原文

在我们的应用程序中，我们从不同来源接收文本文件（.txt、.csv 等）。读取时，这些文件有时包含垃圾，因为这些文件是在不同/未知的代码页中创建的。

有没有办法（自动）检测文本文件的代码页？

StreamReader 构造函数上的 detectEncodingFromByteOrderMarks 适用于 UTF8 和其他 unicode 标记的文件，但我正在寻找一种检测代码页的方法，如 ibm850、windows1252。

感谢您的回答，这就是我所做的。

我们收到的文件来自最终用户，他们对代码页一无所知。接收者也是最终用户，到目前为止，这就是他们对代码页的了解：代码页存在，并且很烦人。

解决办法：

用记事本打开收到的文件，查看有一段乱码的文字。如果某人叫弗朗索瓦或其他什么名字，以你的人类智慧你可以猜出来。
我创建了一个小应用程序，用户可以用它来打开文件，并输入用户知道在使用正确的代码页时它将出现在文件中的文本。
循环遍历所有代码页，并显示那些使用用户提供的文本提供解决方案的代码页。
如果弹出多个代码页，请要求用户指定更多文本。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

朦胧时间 2024-07-12 07:27:56

您无法检测到代码页，您需要被告知。您可以分析字节并猜测它，但这可能会给出一些奇怪的（有时是有趣的）结果。我现在找不到它，但我确信记事本可以被欺骗以中文显示英文文本。

无论如何，这是您需要阅读的内容：
每个软件开发人员绝对必须了解 Unicode 和字符集的绝对最低限度（没有任何借口！）。

乔尔具体说：

关于编码的最重要的事实
如果您完全忘记了我刚才解释的所有内容，请记住一个极其重要的事实。如果不知道字符串使用什么编码，那么它是没有意义的。您不能再把头埋在沙子里假装“纯”文本是 ASCII。
不存在纯文本这样的东西。
如果内存、文件或电子邮件中有一个字符串，您必须知道它的编码方式，否则无法正确解释它或向用户显示它。

如何检测文本文件的编码/代码页？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（21）

关于作者

相关话题

热门标签

推荐作者

留蓝

18790681156

zach7772

Wini

ayeshaaroy

初雪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。