pandas如何高效匹配两个数据表

发布于 2022-09-06 03:28:48 字数 297 浏览 28 评论 0

我有两个数据表,s1是100万的商品数据,s2是4000的品牌数据,任务是给商品数据里打上品牌标签,我用pandas处理

def matchStr(x):
    s = s1[s1["product_name"].str.contains(x,na=False)]
    #然后给s添加一列品牌名就好

s2["brand_name"].apply(matchStr) 

这样做可以实现,但是平均处理一个品牌名是3秒左右,4000个要3个多小时才能完成,请问如何更高效的处理这个啊

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

狼性发作 2022-09-13 03:28:48

先笛卡尔积s1['product_name']和s2['brand_name'],设为结果为df则:

df[df['brand_name'].isin('product_name')]

为结果。这样子可能会调用内部优化快一点,可以试试。

具体如何在pandas里做笛卡尔积可以参考这个答案

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文