非英语字符正在转换为十进制

发布于 2024-12-05 00:55:46 字数 862 浏览 2 评论 0原文

当我检查 RSS 源时,在浏览器中我可以看到如下文本:

装,配上超短迷你裙,严重暴露,也很不得体。大专​​学生的随性打扮...

但是同样的源码查看转成十进制如下:

#30701&#35044&#12289&#36855&#20320&#35033&#12289&#21514&#24102&#35013&#12289&#20154&#23383&#25302&#38795......&#22823&#19

987&#23398&#29983&#30340&#31359&#30528&#25171&#25198&#21450&#28526&#27969&#21697&#21619&#65292&#19968&#30452&#37117&#26159&#26159&#22823&#23478&#35752&#35770&#30340&#2

8909&#38376&#35805&#39064&#12290&

这是内容本地化的原因还是文件以不同的编码保存?我可以看到文件是使用 UTF-8 保存的。

我正在尝试使用 Python 解析 RSS 提要。但解析后,我只得到十进制值,而不是实际的字符。

While I was checking an RSS feed, in a browser I can see the text as below:

装,配上超短迷你裙,太过暴露,也很不得体。大专学生的随性打扮...

But the same source code view is converted to decimal as below:

#30701裤、迷你裙、吊带装、人字拖鞋......大

987学生的穿着打扮及潮流品味,一直都是是大家讨论的

8909门话题。&

Is this due to localization of the content or the file is saved in different encoding? I can see the the file is saved using UTF-8.

I am trying to parse the RSS feed using Python. But after parsing, I am only getting the decimal values, not the actual characters.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

夜灵血窟げ 2024-12-12 00:55:46

并不是源视图将其转换为十进制 - 而是浏览器正在处理实体并将它们转换为相关的非 ASCII 字符。就转换没有终止“;”的实体而言,它可能有点慷慨。

几乎可以肯定,服务器正在提供您在源视图中看到的内容。

It's not that the source view is converting it to decimal - it's that the browser is handling the entities and converting them to the relevant non-ASCII characters. It's possible that it's being a little generous in terms of converting entities which don't have a terminating ';'.

The server is almost certainly serving what you're seeing in the source view.

一紙繁鸢 2024-12-12 00:55:46

由于某种原因,创建提要的工具决定将所有字符转换为其 Unicode 代码点字符串表示形式。确实很奇怪,但只有该工具的作者才能回答。

For some reason, the tool that created the feed decided to convert all characters to their Unicode code point string representation. Odd indeed but only the author of that tool can answer.

苍景流年 2024-12-12 00:55:46

它们不是由页面作者存储为 HTML 实体吗?

http://tlt.its.psu.edu/suggestions/international/bylanguage /thaichart.html

Aren't they just stored as HTML entities by the author of the page?

http://tlt.its.psu.edu/suggestions/international/bylanguage/thaichart.html

守望孤独 2024-12-12 00:55:46

这就是浏览器处理此问题的方式。编写简单的 html 页面,将这个“小数”放在那里并检查您得到的结果。

是的,您可以在 HTML 中使用 UTF-8 字符,但随后必须设置页面编码。对 UTF-8 字符进行十进制编码(例如您的示例)更加安全,因此许多页面更喜欢这样做。它是在 HTML 标准中指定的,因此如果您希望手动解析 HTML,您必须能够处理它。

This is how the browser handles this. Write simple html page, put this 'decimal' there and check what you get.

Yes, you can use UTF-8 characters in HTML, but you must then set page encoding. Encoding UTF-8 characters decimally, such as in you example, is simply safer, so many pages prefer to do it so. It is specified in HTML standards, so if you wish to parse HTML manually, you must be able to deal with it.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文