当前位置：文江博客话题详情

charset-utf8 和字符实体

发布于 2024-09-27 02:38:59 字数 554 浏览 1 评论 0原文

我建议将我的 windows-1252 XHTML 网页转换为 UTF-8。

我的编码中有以下字符实体：

' - 撇号，
► - 右指针，
◄< /code> — 左指针。

如果我使用编辑器更改字符集并将页面保存为 UTF-8：

撇号仍作为字符实体；
指针被转换为代码中的符号（大概是因为 UTF-8 不支持实体？）。

问题：

如果我正确理解 UTF-8，则无需使用实体，可以直接在代码中键入字符。在哪种情况下，我可以安全地将 #39 替换为键入的撇号？
编辑器将指针符号直接放入我的代码中是否正确，这些符号是否会在现代浏览器上可靠地显示，看起来没问题？据推测，如果我使用 UTF-8，我无论如何都无法恢复到实体？

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

硪扪都還晓 2024-10-04 02:38:59

这是字符集，而不是图表集。

1) 这取决于撇号的使用位置，它也是一个有效的 ASCII 字符，因此根据字符意图（无论是仅用于显示（在 DOMText 节点内）还是在代码中使用），您可能能够或可能无法使用一个字面的撇号。

2）如果您的编辑器是现代编辑器，它将使用 utf 序列而不是仅使用 char 来显示文本。代码中使用的大多数序列只是纯 ASCII（ASCII 是 utf8 的子集），因此这些字符将占用一个字节。其他字符可能以特殊方式占用两个、三个甚至四个字节。它们仍将作为一个字符显示给您，但字符和字节之间的关系已变得不同。

反正;因为所有有效的 ASCII 字符在 ASCII、utf8 甚至 windows-1252 中都是完全相同的。使用 utf8 应该不会出现任何问题。您仍然可以使用数字和命名实体，因为它们是用这些有效字符编写的。你只是不必这样做。

PS 所有现代浏览器都可以很好地处理 utf8。但我们对“现代”的定义可能会有所不同。

回复收藏 0 原文

三生一梦 2024-10-04 02:38:59

实体具有三个目的：对无法使用所使用的字符编码（与 UTF-8 无关）进行编码的字符进行编码、对在给定键盘上不方便键入的字符进行编码以及对非法未转义的字符进行编码。

无论编码是什么，► 应始终生成 ►。如果没有，那就是其他地方的错误。

直接在源代码中使用 UTF-8 即可。你可以这样做，也可以做实体，这没有什么区别。

' 在大多数情况下都可以，但在某些情况下则不然。以下都是允许的：

<span title="Jon's example">This is Jon's example</span>

但必须编码为：

<span title='Jon's example'>This is Jon's example</span>

因为否则它将被视为结束属性值的 '。

Entities have three purposes: Encoding characters it isn't possible to encode in the character encoding used (not relevant with UTF-8), encoding characters it is not convenient to type on a given keyboard, and encoding characters that are illegal unescaped.

► should always produce ► no matter what the encoding. If it doesn't, it's a bug elsewhere.

► directly in the source is fine in UTF-8. You can do either that or the entity, and it makes no difference.

' is fine in most contexts, but not some. The following are both allowed:

<span title="Jon's example">This is Jon's example</span>

But would have to be encoded in:

<span title='Jon's example'>This is Jon's example</span>

because otherwise it would be taken as the ' that ends the attribute value.

回复收藏 0 原文

几度春秋 2024-10-04 02:38:59

如果您从文字处理器复制/粘贴内容或者代码是 XML 方言，请使用实体。使用文本编辑器中的宏一次性查找/替换常见的宏。这是一个简单的列表：

一半：½ => ½
锐音：é => é
与号：& => &
撇号：' => '
反引号：' => `
反斜杠：\ => \
项目符号： • => •
美元符号：$ => $
美分符号： ¢ => ¢
省略号：… => …
Emdash: — => —
Endash: – => –
左引号：“ => “
右引号：” => ”

参考

XML 实体名称

回复收藏 0 原文

~没有更多了~

关于作者

笑饮青盏花

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

charset-utf8 和字符实体

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

charset-utf8 和字符实体

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。