webmagic怎样识别网页编码

发布于 2021-11-24 00:34:47 字数 485 浏览 875 评论 6

@黄亿华 你好,想跟你请教个问题:

webmagic中,HttpClientDownloader里


if (charset == null) {
  String value =httpResponse.getEntity().getContentType().getValue();
  charset = UrlUtils.getCharset(value);
}
有一些网页的响应头里是没有charset的,这时获取charset的值就是null。如果这些网页是gbk编码的,获取后就会成为乱码。 这样判断网页编码,是不是单一了点呢? 


如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(6

剑心龙吟 2021-11-27 03:51:18

site.setCharset("gb2312")

囚你心 2021-11-27 03:25:32

有帮助

一人独醉 2021-11-27 02:47:54

怎么设置?

筱武穆 2021-11-27 01:22:38

回复
site.setCharset()

梅窗月明清似水 2021-11-27 01:08:13

嗯,是的,这种情况就按照系统默认编码来了。这里做的比较简单,更全面一点还可以取meta里面的字符集。不过我觉得还是自己设置比较靠谱,非标准的站点太多了。

少女净妖师 2021-11-26 23:46:27

响应头信息
原始头信息

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文