熊猫使用其他集合在集合中丢弃项目

发布于 2025-02-11 03:55:45 字数 988 浏览 1 评论 0原文

我在Pandas DataFrame中有两个列；父母和 cte 。这两个列均由集组组成。我想使用 cte 列来丢弃父母列中的重叠项目。数据帧由超过6k行组成。一些 cte 行有空集。

以下是一个示例：

data = {'parents': [{'loan_agreement', 'select', 'opportunity', 'sales.dim_date', 'sales.flat_opportunity_detail', 'dets', 'dets2', 'channel_partner'}
,{'seed', 'dw_salesforce.sf_dw_partner_application'}], 
        'cte': [{'dets', 'dets2'}, {'seed'}]}
df = pd.DataFrame(data)
df

我以前曾使用过.discard（CTE），但我不知道如何使其正常工作。

我希望输出看起来如下：

data = {'parents': [{'loan_agreement', 'select', 'opportunity', 'sales.dim_date', 'sales.flat_opportunity_detail', 'channel_partner'}
,{'dw_salesforce.sf_dw_partner_application'}], 
        'cte': [{'dets', 'dets2'}, {'seed'}]}
df = pd.DataFrame(data)
df

注意：dets，dets2和种子已从相应的父母单元格中删除。

将 cte 与父母进行了比较，我不需要该行的数据。下一行只会比较该行上的数据，依此类推。

原文

I have two columns in a pandas dataframe; parents and cte. Both columns are made up of sets. I want to use the cte column to discard overlapping items in the parents column. The dataframe is made up of over 6K rows. Some of the cte rows have empty sets.

Below is a sample:

data = {'parents': [{'loan_agreement', 'select', 'opportunity', 'sales.dim_date', 'sales.flat_opportunity_detail', 'dets', 'dets2', 'channel_partner'}
,{'seed', 'dw_salesforce.sf_dw_partner_application'}], 
        'cte': [{'dets', 'dets2'}, {'seed'}]}
df = pd.DataFrame(data)
df

I've used .discard(cte) previously but I can't figure out how to get it to work.

I would like the output to look like the following:

data = {'parents': [{'loan_agreement', 'select', 'opportunity', 'sales.dim_date', 'sales.flat_opportunity_detail', 'channel_partner'}
,{'dw_salesforce.sf_dw_partner_application'}], 
        'cte': [{'dets', 'dets2'}, {'seed'}]}
df = pd.DataFrame(data)
df

NOTE: dets, dets2 and seed have been removed from the corresponding parents cell.

Once the cte is compared to the parents, I don't need data from that row again. The next row will only compare data on that row and so on.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

那请放手 2025-02-18 03:55:45

您需要在这里使用循环。

列表理解可能是最快的：

df['parents'] = [P.difference(C) for P,C in zip(df['parents'], df['cte'])]

输出：

                                             parents            cte
0  {channel_partner, select, opportunity, loan_ag...  {dets, dets2}
1          {dw_salesforce.sf_dw_partner_application}         {seed}

You need to use a loop here.

A list comprehension will likely be the fastest:

df['parents'] = [P.difference(C) for P,C in zip(df['parents'], df['cte'])]

output:

                                             parents            cte
0  {channel_partner, select, opportunity, loan_ag...  {dets, dets2}
1          {dw_salesforce.sf_dw_partner_application}         {seed}

回复收藏 0 原文

~没有更多了~