将元组转换为数据框中的分组行，而无需更改顺序

发布于 2025-02-09 01:04:01 字数 527 浏览 2 评论 0原文

我有一个元组，需要将其转换为数据框架。

res1_ =  [
  ('z1', '1'),
  ('z1', '2'),
  ('x1', '1'),
  ('x2', '1'),
  ('x1', '3'),
  ('z1', '1')]

我的预期数据帧应该是这样的：

docid secid
z1    [1,2]
x1    [1]
x2    [1]
x1    [3]
z1    [1]

如果注意到，则不会更改订单，如果在下一行中重复DOCID，则将两个Secid合并到一个列表中。尽管X1发生了两次，但SEC ID 1和3不在单个列表中，因为我们在X1中部有DOCID X2。

我尝试了：

df = pd.DataFrame(res1_,columns=['docid','secid'])
df.groupby('docid')['secid'].apply(list)

但是当我失去订单时，没有运气，x1也被分组。

原文

I have a tuple and I need to convert it to dataframe.

res1_ =  [
  ('z1', '1'),
  ('z1', '2'),
  ('x1', '1'),
  ('x2', '1'),
  ('x1', '3'),
  ('z1', '1')]

My expected dataframe should be like this :

docid secid
z1    [1,2]
x1    [1]
x2    [1]
x1    [3]
z1    [1]

If you note, the order is not changed and if docid get repeated in next row, then two secids are merged into a single list.
Although x1 is occurring twice, sec id 1 and 3 are not in single list as we have docid x2 in mid of the x1s.

I tried with :

df = pd.DataFrame(res1_,columns=['docid','secid'])
df.groupby('docid')['secid'].apply(list)

But no luck as I am losing the order and x1 too is grouped.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

七禾 2025-02-16 01:04:01

您可以使用dataframe构造函数，然后groupby.agg：

df = pd.DataFrame(res1_, columns=['docid', 'setid'])
group = df['docid'].ne(df['docid'].shift()).cumsum()
df = df.groupby(group.values).agg({'docid': 'first', 'setid': list})

输出：

  docid   setid
1    z1  [1, 2]
2    x1     [1]
3    x2     [1]
4    x1     [3]
5    z1     [1]

You can use the DataFrame constructor, then GroupBy.agg:

df = pd.DataFrame(res1_, columns=['docid', 'setid'])
group = df['docid'].ne(df['docid'].shift()).cumsum()
df = df.groupby(group.values).agg({'docid': 'first', 'setid': list})

output:

  docid   setid
1    z1  [1, 2]
2    x1     [1]
3    x2     [1]
4    x1     [3]
5    z1     [1]

回复收藏 0 原文

柳絮泡泡 2025-02-16 01:04:01

您可以使用 itertools.groupbys.groupbys.groupby 将数据分组，然后转换为数据框：

from itertools import groupby 

grps = [(k, [t[1] for t in g]) for k, g in itertools.groupby(res1_, key=lambda x:x[0])]
df = pd.DataFrame(grps, columns=['docid', 'secid'])

输出：

  docid   secid
0    z1  [1, 2]
1    x1     [1]
2    x2     [1]
3    x1     [3]
4    z1     [1]

You could use itertools.groupby to group the data, and then convert to a dataframe:

from itertools import groupby 

grps = [(k, [t[1] for t in g]) for k, g in itertools.groupby(res1_, key=lambda x:x[0])]
df = pd.DataFrame(grps, columns=['docid', 'secid'])

Output:

  docid   secid
0    z1  [1, 2]
1    x1     [1]
2    x2     [1]
3    x1     [3]
4    z1     [1]

回复收藏 0 原文

~没有更多了~

关于作者

简单气质女生网名

暂无简介

文章

908 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

将元组转换为数据框中的分组行，而无需更改顺序

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

将元组转换为数据框中的分组行，而无需更改顺序

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。