python 爬虫遇到的问题

发布于 2022-09-04 08:59:58 字数 682 浏览 15 评论 0

我写了一个获取淘宝店铺商品的爬虫，大概流程是：

先向店铺网址shopUrl发送请求，然后从里面提取一个叫wid的参数以及一个真正返回宝贝信息的xhr请求网址xhrUrl。
组合这个xhrUrl和wid参数以及pageNo可以向后台请求每个分页的jsonp数据。
分析jsonp数据，通过re和bs4从里面提取有用信息。

整个过程写成一个函数fetch_from(shopUrl),我有一个很多商铺网址组成的列表urlList，我把它放在一个多进程中执行，总是报错，有时提示分析数据时某个列表有indexError，有时是re模块search返回的为None。但是我找到这些报错的shopUrl，然后放到fetch_from函数中去执行，并不会报错，能顺利跑完。请问有人能帮我看看是什么问题不？

if __name__=="__main__":
    pool=multiprocessing.Pool()
    pool.map(fetch_from,urlList)
    pool.join()
    pool.close()

下面这样也会报错:

if __name__=="__main__":
    for url in urlList:
        fetch_from(url)

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

怼怹恏

暂无简介

0 文章

0 评论

23 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

python 爬虫遇到的问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

关于作者

相关话题

热门标签