nodejs 采集网页如何自动识别采集到的网页编码

发布于 2022-09-07 03:24:44 字数 170 浏览 21 评论 0

如题

在使用nodejs 采集网页时候如何自动识别获取到的网页编码。从而可以使用iconv-lite 进行对应的编码转换。

clipboard.png

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

自由如风 2022-09-14 03:24:44

网页的编码就是根据head 中的
<meta charset="UTF-8"> 来规定的

你可以自动获取这个编码信息,来进行编码转换的

羁拥 2022-09-14 03:24:44

不是有charset吗‘’

太阳公公是暖光 2022-09-14 03:24:44
<meta charset="GBK">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

我写了 (?<=(<meta.*?charset=\"|<meta.*?charset=)).*?(?=\") 获取到的是 ['','GBK','utf-8'] // 获取GBK 会获取到一个空的。 有没有更好的写法

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文