PHP 中 mb_detect_order() 的奇怪行为

发布于 2024-09-02 13:24:41 字数 875 浏览 2 评论 0原文

我想检测一些文本的编码（使用 PHP）。为此，我使用 mb_detect_encoding() 函数。

问题是，如果我使用 mb_detect_order() 函数更改可能编码的顺序，该函数会返回不同的结果。

考虑以下示例

$html = <<< STR
ちょっとのアクセスで落ちてしまったり、サーバー障害が多いレンタルサーバーを選ぶとあなたのビジネス等にかなりの影響がでてしまう可能性があります。特に商売をされている個人の方、法人の方は気をつけるようにしてください
STR;
mb_detect_order(array('UTF-8','EUC-JP', 'SJIS', 'eucJP-win', 'SJIS-win', 'JIS', 'ISO-2022-JP','ISO-8859-1','ISO-8859-2'));
$originalEncoding = mb_detect_encoding($str);
die($originalEncoding); // $originalEncoding = 'UTF-8'

，但是如果更改 mb_detect_order() 中的编码顺序，结果将会不同：

mb_detect_order(array('EUC-JP','UTF-8', 'SJIS', 'eucJP-win', 'SJIS-win', 'JIS', 'ISO-2022-JP','ISO-8859-1','ISO-8859-2'));        
die($originalEncoding); // $originalEncoding = 'EUC-JP'

所以我的问题是：
为什么会发生这种情况？
PHP 中有没有一种方法可以正确且明确地检测文本编码？

原文

I would like to detect encoding of some text (using PHP).
For that purpose i use mb_detect_encoding() function.

The problem is that the function returns different results if i change the order of possible encodings with mb_detect_order() function.

Consider the following example

$html = <<< STR
ちょっとのアクセスで落ちてしまったり、サーバー障害が多いレンタルサーバーを選ぶとあなたのビジネス等にかなりの影響がでてしまう可能性があります。特に商売をされている個人の方、法人の方は気をつけるようにしてください
STR;
mb_detect_order(array('UTF-8','EUC-JP', 'SJIS', 'eucJP-win', 'SJIS-win', 'JIS', 'ISO-2022-JP','ISO-8859-1','ISO-8859-2'));
$originalEncoding = mb_detect_encoding($str);
die($originalEncoding); // $originalEncoding = 'UTF-8'

However if you change the order of encodings in mb_detect_order() the results will be different:

mb_detect_order(array('EUC-JP','UTF-8', 'SJIS', 'eucJP-win', 'SJIS-win', 'JIS', 'ISO-2022-JP','ISO-8859-1','ISO-8859-2'));        
die($originalEncoding); // $originalEncoding = 'EUC-JP'

So my questions are:
Why is that happening ?
Is there a way in PHP to correctly and unambiguously detect encoding of text ?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

仙女山的月亮 2024-09-09 13:24:41

这就是我所期望发生的事情。

检测算法可能只是继续按顺序尝试您在 mb_detect_order 中指定的编码，然后返回字节流有效的第一个编码。

更智能的东西需要统计方法（我认为机器学习是常用的）。

编辑：参见例如这篇文章以获得更智能的方法。

由于其重要性，自动字符集检测已在 Mozilla 或 Internet Explorer 等主要 Internet 应用程序中实现。它们非常准确和快速，但实施过程中会根据具体情况应用许多特定领域的知识。与他们的方法相反，我们的目标是一种可以统一应用于每个字符集的简单算法，并且该算法基于完善的标准机器学习技术。我们还研究了语言和字符集检测之间的关系，并比较了基于字节的算法和基于字符的算法。我们使用朴素贝叶斯 (NB) 和支持向量机 (SVM)。

回复收藏 0 原文

两相知 2024-09-09 13:24:41

并不真地。不同的编码通常有大面积的重叠，如果您正在测试的字符串完全存在于重叠区域内，则两种编码都是可以接受的。

例如，对于字母 az，utf-8 和 ISO-8859-1 是相同的。字符串“hello”在两种编码中都具有相同的字节序列。

这正是为什么首先有 mb_detect_order() 函数的原因，因为它允许您说出当这些冲突发生时您希望发生什么。您希望“hello”为 utf-8 还是 ISO-8859-1？

回复收藏 0 原文

能否归途做我良人 2024-09-09 13:24:41

请记住，mb_detect_encoding() 不知道数据采用什么编码。您可能会看到一个字符串，但函数本身只能看到一个字节流。这样一来，它需要猜测编码是什么 - 例如，如果字节仅在 0-127 范围内，则为 ASCII；如果存在 ASCII 字节和 128+ 字节仅成对或更多存在，则为 UTF-8，等等。

正如您可以想象的那样，考虑到这种情况，可靠地检测编码是相当困难的。

就像 rihk 所说，这就是mb_detect_order() 函数的用途是 - 您基本上是在提供您对数据可能是什么的最佳猜测。您经常使用 UTF-8 文件吗？那么很可能您的内容不太可能是 UTF-16，即使 mb_detect_encoding() 可以这样猜测。

您可能还想查看 Artefacto的链接更深入的了解。

示例案例：

回复收藏 0 原文

神也荒唐 2024-09-09 13:24:41

mb_detect_encoding 查看 mb_detect_order() 中的第一个字符集条目，然后循环遍历输入 $html，逐个字符匹配该字符是否属于字符集的有效字符集。如果每个字符都匹配，则返回 true；如果任何字符失败，它将移至 mb_detect_order() 中的下一个字符集并重试。

维基百科字符集列表是查看组成每个字符集的字符的好地方。

由于这些字符集值重叠（字符 x8fA1EF 存在于“UTF-8”和“EUC-JP”中），因此即使它在每个字符集中是完全不同的字符，也会被视为匹配。因此，除非任何字符值存在于一个字符集中，但不存在于另一个字符集中，否则 mb_detect_encoding 无法识别哪个字符集无效；并将返回数组列表中可能有效的第一个字符集。

据我所知，没有确定的方法来识别字符集。如果您对可能遇到的字符集有合理的了解，并根据每个字符集中的间隙（无效字符）对列表进行相应的排序，那么 PHP 的“最佳猜测”方法会有所帮助。
最好的解决方案是“了解”字符集。如果您从另一个页面抓取 html，请在该页面的标题中查找字符集标识符。

如果你真的想变得聪明，你可以尝试识别编写 html 的语言，也许使用 trigrams 或 n-grams 或类似的内容，如这篇关于 PHP/ir 的文章。

回复收藏 0 原文

~没有更多了~