正确计算概率给定条件的方法

发布于 2025-02-04 14:39:01 字数 1851 浏览 4 评论 0原文

我有一些数据显示某个购买某种产品类型的某个客户群的订单：

< img src =“ https://i.sstatic.net/wce85.png” alt =“在此处输入图像说明”>

和相同的格式，但显示了多少退款：

我试图回答一个问题：

顾客在组中的订单是什么可能性[a -b]并退还了？

我的方法是：

being_in_group = df_final[df_final.customer_group.isin(['A','B'])]\
                                                 .groupby('customer_group')\
                                                 .agg({'order_id': 'count'}).sum(axis = 0)

all_orders = df_final.groupby('customer_group').agg({'order_id': 'count'})\
                                               .sum(axis = 0)

p_being_in_group = round(being_in_group / all_orders, 5)

being_refunded = df_final[(df_final.refund == True) & (df_final.customer_group.isin(['A','B']))]\
                         .groupby('customer_group')\
                         .agg({'order_id': 'count'})\
                         .sum(axis = 0)                        
# or taking all customer groups
being_refunded_all = df_final[(df_final.refund == True)]\
                         .groupby('customer_group')\
                         .agg({'order_id': 'count'})\
                         .sum(axis = 0)

p_being_refunded = round(being_refunded / all_orders, 5)
p_being_refunded_all = round(being_refunded_all / all_orders, 5)

p_final_1 = p_being_in_group * p_being_refunded * 100
p_final_2 = p_being_in_group * p_being_refunded_all * 100

我想知道这是否是正确的方法 - 计算组a＆amp; b然后检查退款订单 - 我是否应该检查所有数据中的退款订单，或仅在customer_group IS a＆amp; b？

原文

I have some data which shows how many orders were made by a certain customer group that bought a certain product type:

And the same format but showing how many refunds were made:

I am trying to answer a question:

What is the probability that an order is made by a customer in the group [A - B] and is refunded?

My approach was:

being_in_group = df_final[df_final.customer_group.isin(['A','B'])]\
                                                 .groupby('customer_group')\
                                                 .agg({'order_id': 'count'}).sum(axis = 0)

all_orders = df_final.groupby('customer_group').agg({'order_id': 'count'})\
                                               .sum(axis = 0)

p_being_in_group = round(being_in_group / all_orders, 5)

being_refunded = df_final[(df_final.refund == True) & (df_final.customer_group.isin(['A','B']))]\
                         .groupby('customer_group')\
                         .agg({'order_id': 'count'})\
                         .sum(axis = 0)                        
# or taking all customer groups
being_refunded_all = df_final[(df_final.refund == True)]\
                         .groupby('customer_group')\
                         .agg({'order_id': 'count'})\
                         .sum(axis = 0)

p_being_refunded = round(being_refunded / all_orders, 5)
p_being_refunded_all = round(being_refunded_all / all_orders, 5)

p_final_1 = p_being_in_group * p_being_refunded * 100
p_final_2 = p_being_in_group * p_being_refunded_all * 100

I am wondering if that is the correct approach - calculating the probability of an order being made by the group A & B and then checking the refunded orders - should I check the refunded orders in all of the data or only in the data where customer_group is A & B?

分享到QQ

分享到微博