字符编码交叉引用

发布于 2024-12-06 13:41:20 字数 226 浏览 5 评论 0原文

我刚刚将包含拉丁美洲地名的数据库从 MS Access 迁移到 MySQL。在此过程中，á 的每个实例都已更改为 ‡。这是我的问题：

是否存在某种参考来查找哪种字符编码已转换为另一种？例如，我可以输入一个字符并查看在各种错误的编码转换（例如 ASCII 到 ISO 8859-1、ISO 8859-1 到 UTF-8 等）之后该字符如何被错误表示的地方？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

失退 2024-12-13 13:41:20

我不知道，但如果您有可能的编码列表，您可以编写一个简单的程序，例如：

for x in ENCODINGS:
    for y in ENCODINGS:
        try:
            if 'á'.encode(x) == '‡'.encode(y):
                print(x, '→', y)
        except UnicodeError:
            pass

这样做，在您的情况下，原始编码似乎是以下之一：

mac_arabic
mac_centeuro
mac_croatian
mac_farsi
mac_iceland
mac_latin2
mac_roman
mac_romanian
mac_turkish

和被误解的编码是以下之一：

cp1250
cp1251
cp1252
cp1253
cp1254
cp1255 cp1256
cp1257
cp1258
palmos
如果

您生活在“西方”语言环境中，那么 mac_roman → cp1252 是最有可能的。

Not that I'm aware of, but if you have a list of possible encodings, you can write a simple program like:

for x in ENCODINGS:
    for y in ENCODINGS:
        try:
            if 'á'.encode(x) == '‡'.encode(y):
                print(x, '→', y)
        except UnicodeError:
            pass

Doing that, it appears in your case that the original encoding is one of: