字符编码交叉引用

发布于 2024-12-06 13:41:20 字数 226 浏览 2 评论 0原文

我刚刚将包含拉丁美洲地名的数据库从 MS Access 迁移到 MySQL。在此过程中,á 的每个实例都已更改为 。这是我的问题:

是否存在某种参考来查找哪种字符编码已转换为另一种?例如,我可以输入一个字符并查看在各种错误的编码转换(例如 ASCII 到 ISO 8859-1、ISO 8859-1 到 UTF-8 等)之后该字符如何被错误表示的地方?

I have just migrated a database containing Latin American place names from MS Access to my MySQL. In the process, every instance of á has been changed to . Here is my question:

Does there exist some sort of reference for looking up which character encoding has been translated to which other? For example, a place where I can enter a character and see how it would be misrepresented after a variety of erroneous encoding translations (e.g. ASCII to ISO 8859-1, ISO 8859-1 to UTF-8, etc.)?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

失退 2024-12-13 13:41:20

我不知道,但如果您有可能的编码列表,您可以编写一个简单的程序,例如:

for x in ENCODINGS:
    for y in ENCODINGS:
        try:
            if 'á'.encode(x) == '‡'.encode(y):
                print(x, '→', y)
        except UnicodeError:
            pass

这样做,在您的情况下,原始编码似乎是以下之一:

  • mac_arabic
  • mac_centeuro
  • mac_croatian
  • mac_farsi
  • mac_iceland
  • mac_latin2
  • mac_roman
  • mac_romanian
  • mac_turkish

和被误解的编码是以下之一:

  • cp1250
  • cp1251
  • cp1252
  • cp1253
  • cp1254
  • cp1255 cp1256
  • cp1257
  • cp1258
  • palmos
  • 如果

您生活在“西方”语言环境中,那么 mac_roman → cp1252 是最有可能的。

Not that I'm aware of, but if you have a list of possible encodings, you can write a simple program like:

for x in ENCODINGS:
    for y in ENCODINGS:
        try:
            if 'á'.encode(x) == '‡'.encode(y):
                print(x, '→', y)
        except UnicodeError:
            pass

Doing that, it appears in your case that the original encoding is one of:

  • mac_arabic
  • mac_centeuro
  • mac_croatian
  • mac_farsi
  • mac_iceland
  • mac_latin2
  • mac_roman
  • mac_romanian
  • mac_turkish

and the misinterpreted encoding is one of:

  • cp1250
  • cp1251
  • cp1252
  • cp1253
  • cp1254
  • cp1255
  • cp1256
  • cp1257
  • cp1258
  • palmos

If you live in a "Western" locale, then mac_roman → cp1252 is the most likely possibility.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文