webmagic怎样识别网页编码
@黄亿华 你好,想跟你请教个问题:
webmagic中,HttpClientDownloader里
if (charset == null) { String value =httpResponse.getEntity().getContentType().getValue(); charset = UrlUtils.getCharset(value); }有一些网页的响应头里是没有charset的,这时获取charset的值就是null。如果这些网页是gbk编码的,获取后就会成为乱码。 这样判断网页编码,是不是单一了点呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(6)
site.setCharset("gb2312")
有帮助
怎么设置?
回复
site.setCharset()
嗯,是的,这种情况就按照系统默认编码来了。这里做的比较简单,更全面一点还可以取meta里面的字符集。不过我觉得还是自己设置比较靠谱,非标准的站点太多了。
响应头信息
原始头信息