nodejs抓取网站的翻页判断和言语判断问题.

发布于 2017-05-06 01:56:38 字数 192 浏览 1335 评论 3

网址 http://www.everlight.com/news...
两个问题 1 : 怎么取得每页的url
2 是 点开新闻的内容,
比如 http://www.everlight.com/news...
如果是英文的操作系统,显示的是英语新闻,
如果是中文系统,则显示中文新闻,
我想在node里面固定抓取英文新闻,怎么处理.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

浮生未歇 2017-05-06 01:56:39

右上角有个切换语言的,看一下代码,是调用了这个函数:function __doPostBack(eventTarget, eventArgument) {
if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
theForm.__EVENTTARGET.value = eventTarget;
theForm.__EVENTARGUMENT.value = eventArgument;
theForm.submit();
}

}
其实就是提交了一下表单,而表单是有post的方式发送的原页面所以,你点击后会看到页面有闪一下,但网址并没有变化。所以,如果你要英文版的,post方式传参数:__EVENTTARGET="ctl00$ctl00$lBtnUSA"过去就可以获得英文版的页面。
获取页面内的url,去解析dom就行了。
获取页面中的url的方法:
var jsdom = require("jsdom");

jsdom.env({
url: "http://www.everlight.com/newsdetail.aspx?pcseq=4&cseq=7&seq=291",
scripts: ["http://code.jquery.com/jquery.js"],
done: function (err, window) {
var $ = window.$;
console.log("HN Links");
$("a").each(function() {
//console.log(" -", $(this).text());
var tmp=$(this).text()+"---"+$(this).attr("href");
console.log(tmp);
});
}
});

浮生未歇 2017-05-06 01:56:38

问题关闭...
在post的时候,form里面有几个关键性的数据,是放在也没的hidden变量里面,指定了这些变量应该就能解决.

偏爱自由 2017-05-06 01:56:38

这个还是分析一下request 中的header信息吧,里面有一项是可以利用设置语言的

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文