python 爬虫遇到的问题

发布于 2022-09-04 08:59:58 字数 682 浏览 15 评论 0

我写了一个获取淘宝店铺商品的爬虫,大概流程是:

  • 先向店铺网址shopUrl发送请求,然后从里面提取一个叫wid的参数以及一个真正返回宝贝信息的xhr请求网址xhrUrl。

  • 组合这个xhrUrl和wid参数以及pageNo可以向后台请求每个分页的jsonp数据。

  • 分析jsonp数据,通过re和bs4从里面提取有用信息。

整个过程写成一个函数fetch_from(shopUrl),我有一个很多商铺网址组成的列表urlList,我把它放在一个多进程中执行,总是报错,有时提示分析数据时某个列表有indexError,有时是re模块search返回的为None。但是我找到这些报错的shopUrl,然后放到fetch_from函数中去执行,并不会报错,能顺利跑完。请问有人能帮我看看是什么问题不?

if __name__=="__main__":
    pool=multiprocessing.Pool()
    pool.map(fetch_from,urlList)
    pool.join()
    pool.close()

下面这样也会报错:

if __name__=="__main__":
    for url in urlList:
        fetch_from(url)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文