如何编写一个简易的node爬虫获取任意网址的title呢?
方法的参数为url 然后 返回值为 title。
如:
function getTitle(url){
.......
return title
}
getTitle('http://www.baidu.com')
得到 "百度"
getTIttle('http://www.126.com')
得到 "网易邮箱"
如下图,如何写一个方法获取任意网址的title呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
纯前端使用ajax或者iframe都会存在跨域问题。
需要服务端进行请求指定地址,获取到地址对应的页面,然后提取出title标签中内容。
使用superagent+cheerio
获取任意网址的html页面,获取页面中<title>标签里面的内容。
如果想封装成一个方法,那就将不同的功能分别写成函数,依次调用。
需要通过ajax获取指定url的页面内容,然后再从中分析出其标题
任意是做不到的,因为有的网站对
cookie
有要求,不符合的话是直接403
的。对于没有验证要求的网站,最基本的使用
http.get
获取html
再解析即可。解析可以用正则或者cheerio