nodejs 采集网页如何自动识别采集到的网页编码
如题
在使用nodejs 采集网页时候如何自动识别获取到的网页编码。从而可以使用iconv-lite 进行对应的编码转换。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
在使用nodejs 采集网页时候如何自动识别获取到的网页编码。从而可以使用iconv-lite 进行对应的编码转换。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(3)
网页的编码就是根据
head
中的<meta charset="UTF-8">
来规定的你可以自动获取这个编码信息,来进行编码转换的
不是有charset吗‘’
我写了
(?<=(<meta.*?charset=\"|<meta.*?charset=)).*?(?=\")
获取到的是 ['','GBK','utf-8'] // 获取GBK 会获取到一个空的。 有没有更好的写法