请问pyspider怎么爬有规律的url,内容为json格式的网页

发布于 2022-09-07 03:53:46 字数 1273 浏览 18 评论 0

例如有10个url为:
http://www.baidu.com/userid=1
http://www.baidu.com/userid=2
http://www.baidu.com/userid=3
...
http://www.baidu.com/userid=10

网页内容为

{
    "data": {
        "1": {
            "uid": "1",
            "phone": "13000000000",
            "sex": "1"
        }
    },
    "code": 1,
    "msg": "1"
}
{
    "data": {
        "2": {
            "uid": "2",
            "phone": "13000000001",
            "sex": "1"
        }
    },
    "code": 1,
    "msg": "1"
}

初学pyspider查了很多资料还没上手,查到一个方法可以列出所有url但是不知道怎么抓里面的数据,麻烦大家帮小弟解惑谢谢!!!

    def __init__(self):
        self.base_url = 'http://www.baidu.com/userid='
        self.uid_num = 1
        self.total_num = 10
 
    @every(minutes=24 * 60)
    def on_start(self):
        while self.uid_num <= self.total_num:
            url = self.base_url + str(self.uid_num)
            print url
            self.crawl(url, callback=self.index_page)
            self.uid_num += 1

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文