非英语字符正在转换为十进制

发布于 2024-12-05 00:55:46 字数 862 浏览 3 评论 0原文

当我检查 RSS 源时，在浏览器中我可以看到如下文本：

装，配上超短迷你裙，严重暴露，也很不得体。大专学生的随性打扮...

但是同样的源码查看转成十进制如下：

#30701&#35044&#12289&#36855&#20320&#35033&#12289&#21514&#24102&#35013&#12289&#20154&#23383&#25302&#38795&#46;&#46;&#46;&#46;&#46;&#46;&#22823&#19

987&#23398&#29983&#30340&#31359&#30528&#25171&#25198&#21450&#28526&#27969&#21697&#21619&#65292&#19968&#30452&#37117&#26159&#26159&#22823&#23478&#35752&#35770&#30340&#2

8909&#38376&#35805&#39064&#12290&

这是内容本地化的原因还是文件以不同的编码保存？我可以看到文件是使用 UTF-8 保存的。

我正在尝试使用 Python 解析 RSS 提要。但解析后，我只得到十进制值，而不是实际的字符。

原文

While I was checking an RSS feed, in a browser I can see the text as below:

装，配上超短迷你裙，太过暴露，也很不得体。大专学生的随性打扮...

But the same source code view is converted to decimal as below:

#30701裤、迷你裙、吊带装、人字拖鞋......大

987学生的穿着打扮及潮流品味，一直都是是大家讨论的

8909门话题。&

Is this due to localization of the content or the file is saved in different encoding? I can see the the file is saved using UTF-8.

I am trying to parse the RSS feed using Python. But after parsing, I am only getting the decimal values, not the actual characters.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夜灵血窟げ 2024-12-12 00:55:46

并不是源视图将其转换为十进制 - 而是浏览器正在处理实体并将它们转换为相关的非 ASCII 字符。就转换没有终止“;”的实体而言，它可能有点慷慨。

几乎可以肯定，服务器正在提供您在源视图中看到的内容。

回复收藏 0 原文

一紙繁鸢 2024-12-12 00:55:46

由于某种原因，创建提要的工具决定将所有字符转换为其 Unicode 代码点字符串表示形式。确实很奇怪，但只有该工具的作者才能回答。

回复收藏 0 原文

苍景流年 2024-12-12 00:55:46

它们不是由页面作者存储为 HTML 实体吗？

http://tlt.its.psu.edu/suggestions/international/bylanguage /thaichart.html

回复收藏 0 原文

守望孤独 2024-12-12 00:55:46

这就是浏览器处理此问题的方式。编写简单的 html 页面，将这个“小数”放在那里并检查您得到的结果。

是的，您可以在 HTML 中使用 UTF-8 字符，但随后必须设置页面编码。对 UTF-8 字符进行十进制编码（例如您的示例）更加安全，因此许多页面更喜欢这样做。它是在 HTML 标准中指定的，因此如果您希望手动解析 HTML，您必须能够处理它。

回复收藏 0 原文

~没有更多了~

关于作者

不念旧人

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

非英语字符正在转换为十进制

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚守退让之实

小兔几

mb_3y7WUgWY

友情链接

非英语字符正在转换为十进制

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚 守退让之实

小兔几

mb_3y7WUgWY

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

秉忠贞之诚守退让之实