当前位置：文江博客话题详情

PHP：如何将外来字符从 simple_html_dom 转换为 UTF8？

发布于 2024-11-27 07:09:26 字数 457 浏览 1 评论 0原文

我在处理来自包含外来字符的网页的字符串时遇到一些问题。

该字符串是通过使用 str_get_html() 解析网页生成的，后跟 $htmldom->innertext; （simple_html_dom 类库）。

当我使用 htmlentities() 输出字符串时，它显示得很好；但是在字符串上使用 explode() 并打印各个部分，我得到一个倾斜的块，其中每个外来字符都有一个问号。

我需要将字符串存储在 utf8 MySQL 数据库中，因此我需要正确的外来字符。

我的页面有一个带有 utf8 字符集的标题。

我已经尝试过 mb_split() 和 preg_split()，但它们也有同样的问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

以可爱出名 2024-12-04 07:09:27

PHP 和 UTF-8 并不是一个很好的组合。有些函数可以在 UTF-8 下正常工作，有些则不能，最糟糕的是那些被记录为可以工作但实际上却不能工作的函数（例如 DOMDocument ）。

您可以使用 mb_convert_encoding() 将多字节字符转换为 HTML 实体，这通常提供可接受的解决方法：

$string = mb_convert_encoding($string, 'HTML-ENTITIES', 'UTF-8');

PHP and UTF-8 isn't a very good combination. Some functions work fine with UTF-8, others don't, and the worst are those that are documented to work, but in fact do not (such as DOMDocument ).

You can use mb_convert_encoding() to convert multibyte characters to HTML entities, which usually provides an acceptable workaround:

$string = mb_convert_encoding($string, 'HTML-ENTITIES', 'UTF-8');

回复收藏 0 原文

滥情稳全场 2024-12-04 07:09:26

我解决了这个问题：
https://github.com/neitanod/forceutf8

它有一个很棒的功能，可以将任何内容转换为 utf- 8，无论它来自什么来源（只要它已经是 Latin1 (iso 8859-1)、Windows-1252 或 UTF8，或它们的混合）。

非常感谢塞巴斯蒂安·格里尼奥利。

回复收藏 0 原文

~没有更多了~

关于作者

掩饰不了的爱

暂无简介

0 文章

0 评论

325 人气

关注发私信

胡图图

文章 0 评论 0

关注

zt006

文章 0 评论 0

关注

z祗昰~

文章 0 评论 0

关注

冰葑

文章 0 评论 0

关注

野の

文章 0 评论 0

关注

天空

文章 0 评论 0

友情链接

文江博客

PHP：如何将外来字符从 simple_html_dom 转换为 UTF8？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

PHP：如何将外来字符从 simple_html_dom 转换为 UTF8？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。