分配组内部独特的ID（带有重复的记录）

发布于 2025-02-12 22:24:36 字数 531 浏览 1 评论 0 原文

我有一个数据帧看起来像这样：

df = pd.DataFrame({'type': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B','C','C','C','D','D'],
                   'value': [1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 8],
                  })

我想根据类型和值列创建一个唯一的ID，输出看起来像这样：

df = pd.DataFrame({'type': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B','C','C','C','D','D'],
                   'value': [1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 8],
                   'id': [1, 1, 2, 1, 2, 3, 3, 3, 1, 1, 2, 1, 2],
                  })

原文

I have a DataFrame looks like this:

df = pd.DataFrame({'type': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B','C','C','C','D','D'],
                   'value': [1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 8],
                  })

I would like to create a unique id based on the type and value columns, the output will look like this:

df = pd.DataFrame({'type': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'B','C','C','C','D','D'],
                   'value': [1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 8],
                   'id': [1, 1, 2, 1, 2, 3, 3, 3, 1, 1, 2, 1, 2],
                  })

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦太阳 2025-02-19 22:24:36

使用：

df['id'] = df.groupby('type')['value'].rank('dense').astype(int)
print (df)
   type  value  id
0     A      1   1
1     A      1   1
2     A      2   2
3     B      3   1
4     B      4   2
5     B      5   3
6     B      5   3
7     B      5   3
8     C      6   1
9     C      6   1
10    C      7   2
11    D      7   1
12    D      8   2

或带有 fixsizize ：

f = lambda x: pd.factorize(x)[0]
df['id'] = df.groupby('type')['value'].transform(f).add(1)

Use DataFrameGroupBy.rank:

df['id'] = df.groupby('type')['value'].rank('dense').astype(int)
print (df)
   type  value  id
0     A      1   1
1     A      1   1
2     A      2   2
3     B      3   1
4     B      4   2
5     B      5   3
6     B      5   3
7     B      5   3
8     C      6   1
9     C      6   1
10    C      7   2
11    D      7   1
12    D      8   2

Or GroupBy.transform with factorize:

f = lambda x: pd.factorize(x)[0]
df['id'] = df.groupby('type')['value'].transform(f).add(1)

回复收藏 0 原文

攒一口袋星星 2025-02-19 22:24:36

使用：

t = df.groupby(['type']).transform(lambda x: x.iloc[0])
df['id'] = df.groupby(['type', 'value'])[['type', 'value']].apply(lambda x: x.name[1]).reset_index().merge(df, on = ['type', 'value'])[0]-t['value']+1

输出：

type    value   id
0   A   1   1
1   A   1   1
2   A   2   2
3   B   3   1
4   B   4   2
5   B   5   3
6   B   5   3
7   B   5   3
8   C   6   1
9   C   6   1
10  C   7   2
11  D   7   1
12  D   8   2

Use:

t = df.groupby(['type']).transform(lambda x: x.iloc[0])
df['id'] = df.groupby(['type', 'value'])[['type', 'value']].apply(lambda x: x.name[1]).reset_index().merge(df, on = ['type', 'value'])[0]-t['value']+1

Output:

type    value   id
0   A   1   1
1   A   1   1
2   A   2   2
3   B   3   1
4   B   4   2
5   B   5   3
6   B   5   3
7   B   5   3
8   C   6   1
9   C   6   1
10  C   7   2
11  D   7   1
12  D   8   2

回复收藏 0 原文

~没有更多了~