superagent和cheerio 获取百度首页的内容,为什么获取到的不是网页源码,而是下图几行代码
1、代码:
const express = require('express');
const superagent = require('superagent');
const cheerio = require('cheerio');
const app = express();
const test = express();
app.get('/',(req, res,next) => {
superagent.get('https://www.baidu.com/')
.end((err, sres) => {
if(err) {
return next(err);
}
// sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
// 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
var $ = cheerio.load(sres.text);
var items = [];
console.log(sres.text);
res.send(items);
})
});
app.listen(3000,() => {
console.log('app islistening at port 3000');
})
2、console.log(sres.text)的结果如下,为什么获取的不是 百度首页查看源码时的内容呢
3、<html>
<head>
<script>
location.replace(location.href.replace("https://","http://"));
</script>
</head>
<body>
<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>
希望各位大神赐教一二,解释一下原因,谢谢!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
是UA的问题