ruby 字符串编码

发布于 2024-08-23 14:28:00 字数 1264 浏览 3 评论 0原文

因此，我正在尝试使用 nokogiri 从某个网站进行一些屏幕抓取，但是网站所有者无法在标记中指定页面的正确编码。这样做的结果是，我试图处理那些认为自己是 utf-8 但实际上不是的字符串。

（如果你关心的话，这里是我用来测试这个的文件：

）

经过大量搜索后（这个SO问题特别有用），我发现在该测试字符串上调用encode('iso-8859-1', 'utf-8')“有效”，因为我得到了正确的©符号。现在的问题是，我想要的其他一些字符串中还有其他字符，这些字符在转换为拉丁编码时确实不起作用（例如，Shōta 会变成 Sh�\x8Dta代码>）。

现在，我可能会打扰相应的网站管理员并尝试让他们修复他们该死的编码，但与此同时，我希望能够使用我所拥有的字节。我相当肯定有一种方法，但我就是无法弄清楚它是什么。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

淡淡绿茶香 2024-08-30 14:28:00

这些页面似乎已正确编码为 UTF-8。这就是我的浏览器看到它们的方式，当我查看它们的源代码并告诉编辑器将它们解码为 UTF-8 时，它们看起来很好。我看到的唯一问题是一些版权符号在添加到内容之前（或添加时）似乎已被损坏。 o 马克龙和其他非 ASCII 字母都可以正常显示。

我不知道您是否意识到这一点，但通知客户端页面编码的正确方法是通过标头。页面可能在标记中包含该信息，但这既不是必需的，也不是预期的；如果标头存在，浏览器通常会忽略此类标签。

由于您的页面是 XHTML，因此它们还可以将编码信息嵌入 XML 处理指令中，但同样，它们不是必需的。但这也意味着您可以让 Nokogiri 将它们视为 XML 而不是 HTML，在这种情况下，我希望它默认使用 UTF-8。但我对Nokogiri不熟悉，所以我不能确定。而且无论如何，header仍然是最终的权威。

回复收藏 0 原文