当前位置：文江博客话题详情

网页爬虫 PySpider

请问pyspider怎么爬有规律的url，内容为json格式的网页

发布于 2022-09-07 03:53:46 字数 1273 浏览 20 评论 0

例如有10个url为:
http://www.baidu.com/userid=1
http://www.baidu.com/userid=2
http://www.baidu.com/userid=3
...
http://www.baidu.com/userid=10

网页内容为

{
    "data": {
        "1": {
            "uid": "1",
            "phone": "13000000000",
            "sex": "1"
        }
    },
    "code": 1,
    "msg": "1"
}

{
    "data": {
        "2": {
            "uid": "2",
            "phone": "13000000001",
            "sex": "1"
        }
    },
    "code": 1,
    "msg": "1"
}

初学pyspider查了很多资料还没上手，查到一个方法可以列出所有url但是不知道怎么抓里面的数据，麻烦大家帮小弟解惑谢谢！！！

    def __init__(self):
        self.base_url = 'http://www.baidu.com/userid='
        self.uid_num = 1
        self.total_num = 10
 
    @every(minutes=24 * 60)
    def on_start(self):
        while self.uid_num <= self.total_num:
            url = self.base_url + str(self.uid_num)
            print url
            self.crawl(url, callback=self.index_page)
            self.uid_num += 1

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

夢野间

文章 0 评论 0

百度③文鱼

文章 0 评论 0

小草泠泠

文章 0 评论 0

zhuwenyan

文章 0 评论 0

weirdo

文章 0 评论 0

坚持沉默

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文