请教一下关于如何抓取新浪微博手机版的数据

发布于 2021-11-25 13:45:32 字数 25 浏览 851 评论 6

最近，由于实验设计需要，需要大量抓取微博中的数据，

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

爱你是孤单的心事 2021-12-01 14:25:14

你可以去神箭手云爬虫上看看，里面有不少现成的爬虫可以用。

回复收藏 0

噩梦成真你也成魔 2021-12-01 11:08:28

你好，请问能稍微详细一点吗？呵呵，本人菜鸟，望指点。

回复收藏 0

你曾走过我的故事 2021-12-01 02:35:05

子父关系、集合之类。那个输入框不就是form的第二个input么，管那个名字做啥。对象获取到了，其它的就不是问题。

回复收藏 0

柳絮泡泡 2021-11-30 14:10:32

你好，谢谢回复。我想要抓的是用户原创微博里的地理位置信息。大量。 API我正在使用，但是有限制，1小时之内只能访问150次。匿名的情况下同一IP只能访问100次。由于需求大量用户的原创信息，所以API在这里就不太适用了。请问您还有别的什么方法吗？关于抓取数据的。。谢谢了

回复收藏 0

孤檠 2021-11-29 10:33:09

我想请问下你的那个微博数据抓取成功没有

回复收藏 0

只为守护你 2021-11-26 20:47:55

你想抓取哪些数据？匿名抓页面的还是登陆再抓取？

用HttpClient不如直接用微博API来的快了，得到的都是纯数据，不需要从页面提取。

给个以前写的匿名获取最新发布微博示例(JS API)：

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
 <head>
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  <title> Weibo测试 </title>
  <script src="http://tjs.sjs.sinajs.cn/open/api/js/wb.js?appkey=2598963202" type="text/javascript" charset="utf-8"></script>
  <script src="http://lib.sinaapp.com/js/jquery/1.6/jquery.js" type="text/javascript"></script>
  <script type="text/javascript">
	function getPublicTimeLine() {
		WB2.anyWhere(function(W){
			// 获取评论列表
			W.parseCMD("/statuses/public_timeline.json", function(sResult, bStatus){
				if(bStatus == true) {
					var html = "";
					var length = sResult.length;
					html += "<ul>";
					for(i = 0;i < length;i++) {
						var status = sResult[i];
						/*$.each(status, function(key, value) {
							html += key + ":" + value + "<br>";
						});*/
						var screen_name = status.user.screen_name;
						var text = status.text;
						var profile_image_url = status.user.profile_image_url;
						var url =status.user.url;
						html += "<li>";
						html += "<img src='" + profile_image_url +"'>" + "<br>";
						if(url != null && url != "") {
							html += "<a target='_blank' href='"+ url + "'>";
						}
						else {
							html += "<a target='_blank' href='http://weibo.com'>";
						}
						html += "<strong>" + screen_name + "</strong></a>";
						html += "说：" + text;
						html += "</li>";
					}
					html += "</ul>";
					$("#text").html(html);
				}
			},{
				source : "2598963202"
			});
		});
	}
  </script>
  <style type="text/css">
  #tip {
	color:red;
	font-size:16px;
	border:dashed 1px blue;
  }
  #text {
	color:black;
	font-size:10pt;
  }
  ul,li {
	margin:0;
	padding:0;
  }
  li {
	list-style:none;
	border-bottom:dashed red 1px;
	margin-top:5px;
  }
  </style>
 </head>

 <body>
	<a href="javascript:getPublicTimeLine();">获取最新发布微博(无需登录)</a>
	<h3>内容显示区：</h3>
	<div id="text"></div>
 </body>
</html>

回复收藏 0

~没有更多了~