当前位置：文江博客话题详情

Python pandas group-by dataframe row

如何对系列中的行成对应用函数？

发布于 2025-01-16 21:17:56 字数 546 浏览 4 评论 0原文

我想要这样的东西： df.groupby("A")["B"].diff()

但是我希望能够计算两行是否不同或相同，而不是 diff()，如果当前行与下一行不同，则返回 1前一个，如果相同则为 0。

此外，我真的很想使用自定义函数而不是 diff()，这样我就可以执行一般的成对行操作。

我尝试在不同的地方使用 .rolling(2) 和 .apply() ，但我就是无法让它工作。

编辑：

数据集中的每一行都是一个数据包。

数据集中的第一行是第一个记录的数据包，最后一行是最后一个记录的数据包，即它们按时间排序。

其中一个特征（列）称为“ID”，多个数据包具有相同的 ID。另一列称为“数据”，其值是64位二进制值（字符串），即001011010011001.....10010（长度64）。

我想创建两个新功能（列）：

将当前数据包的“数据”字段与具有相同 ID 的前一个数据包的数据字段进行比较，并计算：

如果它们不同 (1或 0)
有多大不同（0 和 1 之间的数字）

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

桃气十足 2025-01-23 21:17:56

您好，我认为最好放弃使用 grouby 并改为使用 Shift：

equal_index = (df == df.shift(1))[X].all(axis=1)

其中 X 是您想要相同的列的列表。然后您可以创建自己的 grouper by

my_grouper = (~equal_index).cumsum()

并将其与 agg 一起使用以聚合您想要的任何函数

df.groupby(my_grouper).agg({'B':f})

Hi I think it is best if you forgo using the grouby and shift instead:

equal_index = (df == df.shift(1))[X].all(axis=1)

where X is a list of columns you want to be identic. Then you can create your own grouper by

my_grouper = (~equal_index).cumsum()

and use it together with agg to aggregate with whatever function you wish

df.groupby(my_grouper).agg({'B':f})

回复收藏 0 原文

离旧人 2025-01-23 21:17:56

使用 DataFrameGroupBy。移位 与比较不等于Series.ne：

df["dc"] = df.groupby("ID")["data"].shift().ne(df['data']).astype(int)

编辑：对于 2 系列使用之间的相关性：

df["dc"] = df['data'].corr(df.groupby("ID")["data"].shift())

Use DataFrameGroupBy.shift with compare for not equal by Series.ne:

df["dc"] = df.groupby("ID")["data"].shift().ne(df['data']).astype(int)

EDIT: for correlation between 2 Series use:

df["dc"] = df['data'].corr(df.groupby("ID")["data"].shift())

回复收藏 0 原文

谁与争疯 2025-01-23 21:17:56

好的，我自己解决了这个问题，

def create_dc(df: pd.DataFrame):
    dc = df.groupby("ID")["data"].apply(lambda x: x != x.shift(1)).astype(int)
    dc.fillna(1, inplace=True)
    df["dc"] = dc

这就是我想要的。
感谢@Arnau 激励我使用 .shift()！

Ok, I solved it myself with

def create_dc(df: pd.DataFrame):
    dc = df.groupby("ID")["data"].apply(lambda x: x != x.shift(1)).astype(int)
    dc.fillna(1, inplace=True)
    df["dc"] = dc

this does what I want.
Thank you @Arnau for inspiring me to use .shift()!

回复收藏 0 原文

~没有更多了~

关于作者

把梦留给海

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

今天

文章 0 评论 0

゛时过境迁

文章 0 评论 0

达拉崩吧

文章 0 评论 0

呆萌少年

文章 0 评论 0

孤者何惧

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文