当前位置：文江博客话题详情

如何将 UTF-8 转换为 HTML 实体中的文本？

发布于 2024-09-05 00:24:16 字数 231 浏览 4 评论 0原文

我有一个从互联网下载页面的下载程序。每个页面的编码都不同，有些是UTF-8，有些是Unicode。例如：a 显示“a”字符；页面充满了这些字符。我们应该将此编码转换为普通文本。

我在 C# 中使用了 UnicodeEncoding 类，但它们对我没有帮助。

我如何将此编码解码为真实字符？是否有一个类或方法可以转换它？

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

牵强ㄟ 2024-09-12 00:24:16

那是 html 编码的；尝试HtmlDecode？（您需要引用 System.Web.dll）

回复收藏 0 原文

葮薆情 2024-09-12 00:24:16

html页面中的文本以&开头的形式以 ; 结尾的，是 HTML 编码的。

您可以使用以下方法对其进行解码：

string html = ...; //your html
string decoded = System.Web.HttpUtility.HtmlDecode( html );

另请参阅从互联网下载 HTML 后字符串中的字符发生了变化，了解如何确保以正确的字符集下载页面的代码。

Text in html pages which are in the form of starting with & and ending with ;, are HTML encoded.

You can decode these by using:

string html = ...; //your html
string decoded = System.Web.HttpUtility.HtmlDecode( html );

Also see Characters in string changed after downloading HTML from the internet for code on how to make sure you download the page in the correct character set.

回复收藏 0 原文

不醒的梦 2024-09-12 00:24:16

您对 HTML/XML 转义和 UTF-8/Unicode 感到困惑。

如果页面是有效的 XML，那么生活会更容易 - 您可以像任何其他 XML 文档一样解析它，然后获取相关的文本节点...当您获取文本时，所有 XML 转义都将“未转义”。

如果它是任意的——而且可能是无效的——HTML，那么生活就有点困难了。您可能希望首先将其规范化为有效的 HTML，然后解析它并再次请求文本节点。

如果您能给我们一个更具体的例子，我们会更容易为您提供建议。

其他答案中建议的 HtmlDecode 方法很可能就是您所需要的一切 - 但您绝对应该首先尝试了解发生了什么。例如，您可能想要仅解码 HTML 的某些片段 - 如果您解码整个文档，那么最终可能会得到看起来它包含的文本类似于 HTML标签，但实际上只包含原始文档中的文本。

回复收藏 0 原文

~没有更多了~

关于作者

忆伤

暂无简介

0 文章

0 评论

23 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

如何将 UTF-8 转换为 HTML 实体中的文本？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签