HTML Tidy 处理后的希伯来字符变成了乱码

发布于 2024-11-26 14:19:56 字数 492 浏览 4 评论 0原文

我正在使用 HTML Tidy Online (http://infohound.net/tidy/) 来整理一些非常旧且混乱的 HTML 文件，其中包含一些希伯来语字符。每当 Tidy 处理页面时，即使在更改设置中的编码方法之后，输出也会将希伯来字符变成乱码。使用不同的设置，我确实设法获得与 Unicode 实体相同的希伯来字符输出。我用谷歌搜索了可能的解决方案，但没有找到。我心里有几个想法，但我不确定如何实现它们（如果有的话）（也许有人有更好的解决方案）。

我想也许我可以（在处理页面之后）扫描页面中的 unicode 实体，并将它们替换为相应的希伯来字符（当然，以系统的方式）。
也许我可以获取 HTML Tidy 源代码并修改它以适当地输出希伯来字符。问题是我怀疑我是否有足够的知识来开始做这样的事情。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

ヤ经典坏疍 2024-12-03 14:19:56

我有类似的问题。 UTF-8 格式的文档，包含 unicode 字符。 HTML Tidy 将它们转换为 HTML 实体。 HTMLTIDY.CFG 中的这个修复了它：

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

希望它有帮助。

I had a similar problem. Document in UTF-8, containing unicode characters. HTML Tidy turned them into HTML entities. This in HTMLTIDY.CFG fixed it:

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

Hope it helps.

回复收藏 0 原文

红焚 2024-12-03 14:19:56

您使用的网站 http://infohound.net/tidy/ 有一个“Char 编码”子句右下角。您需要选择 utf-8，但首先需要确保页面在测试编辑器中以 UTF-8 编码。例如，在 Notepad++ 中，您可以转到 Encoding >转换为无 BOM 的 UTF-8。

回复收藏 0 原文

~没有更多了~

关于作者

海拔太高太耀眼

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

HTML Tidy 处理后的希伯来字符变成了乱码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚守退让之实

小兔几

mb_3y7WUgWY

友情链接

HTML Tidy 处理后的希伯来字符变成了乱码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚 守退让之实

小兔几

mb_3y7WUgWY

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

秉忠贞之诚守退让之实