最近,由于实验设计需要,需要大量抓取微博中的数据,
你可以去神箭手云爬虫上看看,里面有不少现成的爬虫可以用。
你好,请问能稍微详细一点吗?呵呵,本人菜鸟,望指点。
子父关系、集合之类。那个输入框不就是form的第二个input么,管那个名字做啥。对象获取到了,其它的就不是问题。
你好,谢谢回复。 我想要抓的是用户原创微博里的地理位置信息。大量。 API我正在使用,但是有限制,1小时之内只能访问150次。 匿名的情况下同一IP只能访问100次。 由于需求大量用户的原创信息,所以API在这里就不太适用了。 请问您还有别的什么方法吗?关于抓取数据的。。 谢谢了
我想请问下 你的那个微博数据抓取成功没有
你想抓取哪些数据?匿名抓页面的还是登陆再抓取?
用HttpClient不如直接用微博API来的快了,得到的都是纯数据,不需要从页面提取。
给个以前写的匿名获取最新发布微博示例(JS API):
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title> Weibo测试 </title> <script src="http://tjs.sjs.sinajs.cn/open/api/js/wb.js?appkey=2598963202" type="text/javascript" charset="utf-8"></script> <script src="http://lib.sinaapp.com/js/jquery/1.6/jquery.js" type="text/javascript"></script> <script type="text/javascript"> function getPublicTimeLine() { WB2.anyWhere(function(W){ // 获取评论列表 W.parseCMD("/statuses/public_timeline.json", function(sResult, bStatus){ if(bStatus == true) { var html = ""; var length = sResult.length; html += "<ul>"; for(i = 0;i < length;i++) { var status = sResult[i]; /*$.each(status, function(key, value) { html += key + ":" + value + "<br>"; });*/ var screen_name = status.user.screen_name; var text = status.text; var profile_image_url = status.user.profile_image_url; var url =status.user.url; html += "<li>"; html += "<img src='" + profile_image_url +"'>" + "<br>"; if(url != null && url != "") { html += "<a target='_blank' href='"+ url + "'>"; } else { html += "<a target='_blank' href='http://weibo.com'>"; } html += "<strong>" + screen_name + "</strong></a>"; html += "说:" + text; html += "</li>"; } html += "</ul>"; $("#text").html(html); } },{ source : "2598963202" }); }); } </script> <style type="text/css"> #tip { color:red; font-size:16px; border:dashed 1px blue; } #text { color:black; font-size:10pt; } ul,li { margin:0; padding:0; } li { list-style:none; border-bottom:dashed red 1px; margin-top:5px; } </style> </head> <body> <a href="javascript:getPublicTimeLine();">获取最新发布微博(无需登录)</a> <h3>内容显示区:</h3> <div id="text"></div> </body> </html>
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(6)
你可以去神箭手云爬虫上看看,里面有不少现成的爬虫可以用。
你好,请问能稍微详细一点吗?呵呵,本人菜鸟,望指点。
子父关系、集合之类。那个输入框不就是form的第二个input么,管那个名字做啥。对象获取到了,其它的就不是问题。
你好,谢谢回复。 我想要抓的是用户原创微博里的地理位置信息。大量。 API我正在使用,但是有限制,1小时之内只能访问150次。 匿名的情况下同一IP只能访问100次。 由于需求大量用户的原创信息,所以API在这里就不太适用了。 请问您还有别的什么方法吗?关于抓取数据的。。 谢谢了
我想请问下 你的那个微博数据抓取成功没有
你想抓取哪些数据?匿名抓页面的还是登陆再抓取?
用HttpClient不如直接用微博API来的快了,得到的都是纯数据,不需要从页面提取。
给个以前写的匿名获取最新发布微博示例(JS API):