采用 UTF-8 编码

发布于 2024-11-30 07:06:36 字数 1442 浏览 0 评论 0原文

我需要从某些 CRM 软件获取 XML 文件。

XML 文件编码为 UTF-8,但存在一些“奇怪”字符,由于这些字符,我无法使用 simple_xml 解析该文件。

例如:

<ROW ART_LIB="CAT NxA1 2008"  />

存在“xA1”字符。它是什么?如何将其编码为“好”字符?

解析的良好结果是:

<ROW ART_LIB="CAT N° 2008"  />

因此,实际上,要解析 XML 文件,我这样做:

$fichier = utf8_encode(file_get_contents($inputfileName));
$xmlInput = simplexml_load_string($fichier);

如何修复它?


感谢 Jason Coco 的帮助,我已经解决了这个问题:

function mac_roman_to_iso($string)
{
    return strtr($string,
        "\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa1\xa4\xa6\xa7\xa8\xab\xac\xae\xaf\xb4\xbb\xbc\xbe\xbf\xc0\xc1\xc2\xc7\xc8\xca\xcb\xcc\xd6\xd8\xdb\xe1\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf1\xf2\xf3\xf4\xf8\xfc\xd2\xd3\xd4\xd5Ð",
        "\xc4\xc5\xc7\xc9\xd1\xd6\xdc\xe1\xe0\xe2\xe4\xe3\xe5\xe7\xe9\xe8\xea\xeb\xed\xec\xee\xef\xf1\xf3\xf2\xf4\xf6\xf5\xfa\xf9\xfb\xfc\xb0\xa7\xb6\xdf\xae\xb4\xa8\xc6\xd8\xa5\xaa\xba\xe6\xf8\xbf\xa1\xac\xab\xbb\xa0\xc0\xc3\xf7\xff\xa4\xb7\xc2\xca\xc1\xcb\xc8\xcd\xce\xcf\xcc\xd3\xd4\xd2\xda\xdb\xd9\xaf\xb8\x22\x22\x27\x27-");
}

$fichier = mac_roman_to_iso(file_get_contents($fichier));
$xmlInput = simplexml_load_string(utf8_encode($fichier));

然后,使用 iconv() 将值从 ISO-8859-1 编码为 UTF-8。

I need to get an XML file from some CRM software.

The XML file encoding is in UTF-8, but some "strange" characters are present, and I can't parse the file with simple_xml due to these characters.

For example:

<ROW ART_LIB="CAT NxA1 2008"  />

the "xA1" char is present. What is it, and how do I encode it to the "good" character?

The good result to be parsing is:

<ROW ART_LIB="CAT N° 2008"  />

So, actually, to parse the XML file, I do that:

$fichier = utf8_encode(file_get_contents($inputfileName));
$xmlInput = simplexml_load_string($fichier);

How can I fix it?


Thanks to the help of Jason Coco, I've fix the problem to do it:

function mac_roman_to_iso($string)
{
    return strtr($string,
        "\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa1\xa4\xa6\xa7\xa8\xab\xac\xae\xaf\xb4\xbb\xbc\xbe\xbf\xc0\xc1\xc2\xc7\xc8\xca\xcb\xcc\xd6\xd8\xdb\xe1\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf1\xf2\xf3\xf4\xf8\xfc\xd2\xd3\xd4\xd5Ð",
        "\xc4\xc5\xc7\xc9\xd1\xd6\xdc\xe1\xe0\xe2\xe4\xe3\xe5\xe7\xe9\xe8\xea\xeb\xed\xec\xee\xef\xf1\xf3\xf2\xf4\xf6\xf5\xfa\xf9\xfb\xfc\xb0\xa7\xb6\xdf\xae\xb4\xa8\xc6\xd8\xa5\xaa\xba\xe6\xf8\xbf\xa1\xac\xab\xbb\xa0\xc0\xc3\xf7\xff\xa4\xb7\xc2\xca\xc1\xcb\xc8\xcd\xce\xcf\xcc\xd3\xd4\xd2\xda\xdb\xd9\xaf\xb8\x22\x22\x27\x27-");
}

$fichier = mac_roman_to_iso(file_get_contents($fichier));
$xmlInput = simplexml_load_string(utf8_encode($fichier));

And after, encode the value from ISO-8859-1 to UTF-8 with iconv().

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

梦冥 2024-12-07 07:06:36

问题不在于 UTF-8。问题是您的 XML 文件不是 UTF-8 编码的,而是 MacRoman 编码的。将其视为 MacRoman 编码文件,它应该可以正常工作。

The problem is not with UTF-8. The problem is that your XML file is not UTF-8 encoded, it is MacRoman encoded. Treat it as a MacRoman-encoded file and it should work fine.

魄砕の薆 2024-12-07 07:06:36

理想情况下,我认为您永远不必使用 utf8_encode() 或 utf8_decode()。

您必须在应用程序的所有级别声明相同的编码。

您检查过 CRM、数据库、php 文件、浏览器的默认编码吗?

Ideally I think you should never have to use utf8_encode() or utf8_decode().

You have to have the same encoding declared at all the levels of your application.

Did you check the default encoding of your CRM, database, php files, browser ?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文