计算具有重复日期的滚动窗口唯一值pandas

发布于 2025-01-09 15:20:25 字数 2067 浏览 0 评论 0原文

如果我有一个像这样的 pandas DataFrame

date	person_active
22/2	John
22/2	Marie
22/2	Mark
23/2	John
24/2	Mark
24/2	Marie

我如何根据时间在滚动窗口中计算 < 中的唯一值code>person_active，例如：2 天滚动窗口，因此最终结果如下：

date	person_active	people_active
22/2	John	3
22/2	玛丽	3
22/2	马克	3
23/2	约翰	3
24/2	马克	3
24/2	玛丽	3

这里的主要问题是我在每个人的日期上有重复的条目，所以一个简单的df.rolling('2d',on='date').count() 不会完成这项工作。

编辑：请考虑在大数据集中的实现以及计算时间如何扩展，该解决方案需要理想地适用于现实环境，因此如果计算时间太长，它就没那么有用。

原文

If I have a pandas DataFrame like this

date	person_active
22/2	John
22/2	Marie
22/2	Mark
23/2	John
24/2	Mark
24/2	Marie

how do I count in a rolling window based on time the unique values in person_active, for example: 2 days rolling window, so it ends up like this:

date	person_active	people_active
22/2	John	3
22/2	Marie	3
22/2	Mark	3
23/2	John	3
24/2	Mark	3
24/2	Marie	3

The main issue here is that I have duplicate entries on date for each person so a simple df.rolling('2d',on='date').count() won't do the job.

EDIT: Please consider implementation in a big dataset and how the time to compute will scale, the solution needs to be ideally applicable in a real-world environment so if it takes too long to compute it's not that useful.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

简单爱 2025-01-16 15:20:25

IIUC，尝试：

#convert to datetime if needed
df["date"] = pd.to_datetime(df["date"], format="%d/%m")

#convert string name to categorical codes for numerical aggegation
df["people"] = pd.Categorical(df["person_active"]).codes

#compute the rolling unique count
df["people_active"] = (df.rolling("2D", on="date")["people"]
                         .agg(lambda x: x.nunique())
                         .groupby(df["date"])
                         .transform("max")
                       )

#drop the unneccessary column
df = df.drop("people", axis=1)

>>> df
        date person_active  people_active
0 1900-02-22          John            3.0
1 1900-02-22         Marie            3.0
2 1900-02-22          Mark            3.0
3 1900-02-23          John            3.0
4 1900-02-24          Mark            3.0
5 1900-02-24         Marie            3.0

IIUC, try:

#convert to datetime if needed
df["date"] = pd.to_datetime(df["date"], format="%d/%m")

#convert string name to categorical codes for numerical aggegation
df["people"] = pd.Categorical(df["person_active"]).codes

#compute the rolling unique count
df["people_active"] = (df.rolling("2D", on="date")["people"]
                         .agg(lambda x: x.nunique())
                         .groupby(df["date"])
                         .transform("max")
                       )

#drop the unneccessary column
df = df.drop("people", axis=1)

>>> df
        date person_active  people_active
0 1900-02-22          John            3.0
1 1900-02-22         Marie            3.0
2 1900-02-22          Mark            3.0
3 1900-02-23          John            3.0
4 1900-02-24          Mark            3.0
5 1900-02-24         Marie            3.0

回复收藏 0 原文

弱骨蛰伏 2025-01-16 15:20:25

按日期分组，计算唯一值，然后就可以开始了：

df.groupby('date').nunique().rolling('2d').sum()

Group by date, count unique values and then you're good to go:

df.groupby('date').nunique().rolling('2d').sum()

回复收藏 0 原文

~没有更多了~

关于作者

み青杉依旧

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

计算具有重复日期的滚动窗口唯一值pandas

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

计算具有重复日期的滚动窗口唯一值pandas

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。