如何纠正文件的字符编码？

发布于 2024-07-05 07:41:31 字数 254 浏览 14 评论 0原文

我有一个 ANSI 编码的文本文件，该文件不应该被编码为 ANSI，因为有重音符号 ANSI 不支持的字符。我宁愿使用 UTF-8。

数据能否正确解码或者在转码过程中丢失？

我可以使用什么工具？

这是我所拥有的示例：

Ã§ Ã©

我可以从上下文中看出（咖啡馆应该是咖啡馆），这应该是这两个字符：

ç é

原文

I have an ANSI encoded text file that should not have been encoded as ANSI as there were accented
characters that ANSI does not support. I would rather work with UTF-8.

Can the data be decoded correctly or is it lost in transcoding?

What tools could I use?

Here is a sample of what I have:

Ã§ Ã©

I can tell from context (cafÃ© should be café) that these should be these two characters:

ç é

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

深海蓝天 2024-07-12 07:41:31

在 Sublime Text 编辑器中，文件 -> 使用编码重新打开 -> 选择正确的编码。

一般情况下会自动检测编码，如果没有，可以使用上面的方法。

回复收藏 0 原文

愛放△進行李 2024-07-12 07:41:31

如果您在文件中看到问号或者重音符号已经丢失，那么返回 utf8 对您的事业没有任何帮助。例如，如果咖啡馆变成了咖啡馆 - 仅更改编码不会有帮助（并且您将需要原始数据）。

您能否在此处粘贴一些文字，这将帮助我们确定答案。

回复收藏 0 原文

水溶 2024-07-12 07:41:31

我找到了一种自动检测文件编码的简单方法 - 将文件更改为文本文件（在 Mac 上将文件扩展名重命名为 .txt）并将其拖动到 Mozilla Firefox 窗口（或“文件”->“打开”）。 Firefox 将检测编码 - 您可以在查看 -> 下看到它所提供的内容。字符编码。

一旦我知道正确的编码，我就使用 TextMate 更改了文件的编码。文件-> 使用编码重新打开并选择您的编码。然后文件-> 另存为并将编码更改为 UTF-8 并将行结尾更改为 LF （或任何您想要的）

回复收藏 0 原文

愛上了 2024-07-12 07:41:31

使用 iconv - 请参阅在字符集之间转换文本文件的最佳方法？

回复收藏 0 原文

你是年少的欢喜 2024-07-12 07:41:31

编辑：在进入更复杂的解决方案之前消除一个简单的可能性：您是否尝试在您正在读取文件的文本编辑器中将字符集设置为 utf8 ？这可能只是某人向您发送了一个 utf8 文件，而您正在设置为 cp1252 的编辑器中阅读该文件。

仅举这两个例子，这是通过单字节编码（可能是 iso-8859-1、iso-8859-15 或 cp1252 之一）读取 utf8 的情况。如果您可以发布其他问题字符的示例，应该可以进一步缩小范围。

由于对字符的目视检查可能会产生误导，因此您还需要查看底层字节：您在屏幕上看到的 § 可能是 0xa7 或 0xc2a7，这将决定您必须执行的字符集转换类型。

您是否可以假设您的所有数据都以完全相同的方式被扭曲 - 它来自相同的来源并经过相同的转换序列，因此例如您的文本中没有一个 é，它始终是A§？如果是这样，可以通过一系列字符集转换来解决问题。如果您可以更具体地了解您所处的环境和您正在使用的数据库，那么这里的某人可能会告诉您如何执行适当的转换。

否则，如果问题字符仅出现在数据中的某些位置，则您必须根据“没有作者打算在文本中放入 §，因此每当您看到将其替换为 ç"。后一种选择风险更大，首先是因为这些关于作者意图的假设可能是错误的，其次是因为你必须自己发现每个问题字符，如果有太多文本需要目视检查或者是书面的，这可能是不可能的使用对您而言陌生的语言或书写系统。

回复收藏 0 原文

濫情▎り 2024-07-12 07:41:31

从命令行使用 vim：

vim -c "set encoding=utf8" -c "set fileencoding=utf8" -c "wq" filename

With vim from command line:

vim -c "set encoding=utf8" -c "set fileencoding=utf8" -c "wq" filename

回复收藏 0 原文

为你拒绝所有暧昧 2024-07-12 07:41:31

当您看到像 § 和 é 这样的字符序列时，通常表明 UTF-8 文件已被程序打开并以 ANSI（或类似）格式读入。 Unicode 字符，例如：

U+00C2 带扬音符号的拉丁文大写字母 A
U+00C3 带波形符的拉丁文大写字母 A
U+0082 此处允许中断
这里的无中断

U+0083由于 UTF-8 使用的可变字节策略，往往会出现在 ANSI 文本中。此处对此策略进行了很好的解释。

对您来说的优点是，这些奇怪字符的出现使您相对容易找到并替换不正确转换的实例。

我相信，由于 ANSI 每个字符始终使用 1 个字节，因此您可以通过简单的搜索和替换操作来处理这种情况。或者更方便的是，使用包含违规序列和所需字符之间的表映射的程序，如下所示：

“->” “ # 应该是左双大引号
”？ -> ” # 应该是结束双大引号

任何给定的文本，假设它是英文的，都会有相对少量的不同类型的替换。

希望有帮助。

回复收藏 0 原文

靑春怀旧 2024-07-12 07:41:31

使用 Notepad++ 按照以下步骤操作

1- 复制原始文本

2- 在 Notepad++ 中，打开新文件，更改编码 -> 选择您认为原始文本遵循的编码。也尝试编码“ANSI”，因为有时 Unicode 文件会被某些程序读取为 ANSI

3- 粘贴

4- 然后再次通过同一菜单转换为 Unicode：编码 -> “以 UTF-8 编码”（不是“转换为 UTF-8”）并希望它变得可读

上述步骤适用于大多数语言。您只需在粘贴到记事本++之前猜测原始编码，然后通过同一菜单转换为替代的基于 Unicode 的编码，看看内容是否变得可读。

大多数语言存在两种编码形式： 1- 大多数计算机最初使用旧的 ANSI (ASCII) 形式，只有 8 位。 8 位仅允许 256 种可能性，其中 128 种是常规拉丁字符和控制字符，最后 128 位的读取方式不同，具体取决于 PC 语言设置 2- 新的 Unicode 标准（最多 32 位）为每个字符提供唯一的代码以所有当前已知的语言以及未来更多的语言。如果文件是 unicode，则任何安装了该语言字体的 PC 都应该可以理解它。请注意，即使 UTF-8 也高达 32 位，并且与 UTF-16 和 UTF-32 一样广泛，只是它尝试保留带有拉丁字符的 8 位，只是为了节省磁盘空间

回复收藏 0 原文