中文文件名乱码可以修复吗?

发布于 2024-08-26 08:49:47 字数 335 浏览 14 评论 0原文

我正在通过 FTP 下载一些带有中文名称(BIG5 编码)的文件,Filezilla 将这些文件名显示为垃圾(因为 FTP 无法处理除 ASCII 和 UTF-8 之外的任何编码,至少是符合标准的编码)。

给定一个带有乱码的文件名,如果我已经知道源编码,我是否可以修复编码并获得正确的文件名字符串? FTP 客户端是否会将 BIG5 误解为 UTF-8 插入字节,从而使转换回 BIG5 变得困难?

我建议的步骤(Java): 1.使用File对象获取乱码文件名。 2.使用UTF-8获取字节。 3. 使用 BIG5 中的这些字节创建一个新字符串。 4. 将解码后的文件名写回到文件中。

上面的方法行得通吗?

I'm downloading via FTP some files with chinese names (BIG5 encoded), and Filezilla displays those filenames as garbage (as FTP cannot handle any encoding other than ASCII and UTF-8, as least the standard compliant ones).

Given a filename with garbled characters, is it possible for me to repair the encoding and get a proper filename String given that I already know the source encoding? Will the FTP client misinterpreting BIG5 as UTF-8 insert bytes that make conversion back to BIG5 difficult?

My proposed steps (in Java):
1. get the garbled filename using File object.
2. getbytes using UTF-8.
3. create a new string using those bytes in BIG5.
4. Write the decoded filename back to the file.

Will the above method work?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

凉墨 2024-09-02 08:49:47

并非每个字节序列都是有效的 ASCII 或 UTF-8 字符串,因此很可能某些字节将被丢弃,转换为 替换字符,或以其他方式不可逆转地损坏。因此,如果 FileZilla 已将原始文件名修改为正确格式的 UTF-8 或 ASCII,您将无法检索原始文件名。

您可能很幸运能够恢复一定比例的原始字符,它们恰好是有效的 BIG5 和有效的 UTF-8,但我怀疑您是否能够恢复整个文件名。

您可以发布一些乱码文件名的示例(以十六进制编码的原始字节)以获得更明确的答案。这样我们就可以准确地看到损坏的情况。

Not every sequence of bytes is a valid ASCII or UTF-8 string so it's quite likely that some of the bytes will have been discarded, converted to the replacement character, or otherwise irreversibly mangled. So it looks like you won't be able to retrieve the original filenames if they have been modified by FileZilla to become correctly formed UTF-8 or ASCII.

You might be lucky to be able to get a certain percentage of the original characters back, where they just happened to be both valid BIG5 and valid UTF-8, but I doubt you will be able to recover the entire filename.

You could post a few examples of your garbled filenames (as raw bytes encoded in hex) to get a more definite answer. That way we can see exactly what the damage is.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文