有没有一种方法可以使用等级函数在表中平坦值？

发布于 2025-01-28 16:18:15 字数 1122 浏览 4 评论 0原文

我在SQL中有一个表格，看起来像这样

-Item	activity_id	activity_type	activation_date
项目1	活动a	呼叫	Jan -1-2022
项目1	活动B	邮件	Jan -10-2022
项目1	活动C	PRITIST C PRINT	JAN -12-2022

类似，有成千上万个项目和每个都可以进行一个或多个活动（最多5个）。我想运行一个SQL查询以使所有记录的项目级别在项目级别上弄平数据，而所需的输出就是这样 -

项目	活动1	活动2	活动3	活动4	活动5	活动1日期	活动2日期活动3日期	活动3日期	活动4日期	活动5日期
项目1	通话	邮件	打印			1月1日至1-2022	JAN -10-2022	JAN -12-2022

根据活动日期的上升顺序，活动列（1-5）填充了活动列（1-5）。

有办法实现这一目标吗？另外，我可以在python中导入原始数据，如果有一种优雅的方法可以使用熊猫来进行转换。

请注意，列值仍然是列值，并且与PANDAS中的Undivot操作并不相同。我看到了关于熊猫中未分散的答案，但无法使用那里的答案来解决这个特殊的问题

谢谢，

原文

I have a table in SQL which looks like this -

ITEM	ACTIVITY_ID	ACTIVITY_TYPE	ACTIVITY_DATE
Item 1	Activity A	Call	Jan - 1 - 2022
Item 1	Activity B	Mail	Jan - 10 - 2022
Item 1	Activity C	Print	Jan - 12 - 2022

Similarly, there are thousands of Items and each can have one or more activities (up to 5).
I want to run a SQL query to flatten the data at the Item level for all the records and the output desired is something like this -

ITEM	ACTIVITY 1	ACTIVITY 2	ACTIVITY 3	ACTIVITY 4	ACTIVITY 5	ACTIVITY 1 DATE	ACTIVITY 2 DATE	ACTIVITY 3 DATE	ACTIVITY 4 DATE	ACTIVITY 5 DATE
Item 1	Call	Mail	Print			Jan - 1 - 2022	Jan - 10 - 2022	Jan - 12 - 2022

The activity columns (1-5) are populated based on the ascending order of activity date.

Is there a way to achieve this? Also, I can import the raw data in Python and can do the transformation there as well if there's an elegant way to do it using Pandas.

Please note that the column values still remain as column values and it is not identical to the unpivot operation in pandas. I saw the answer on unpivoting in pandas but was not able to solve this particular problem using the answers there

Thanks in advance,

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

﹉夏雨初晴づ 2025-02-04 16:18:15

模式：

WITH cte AS (
    SELECT *, ROW_NUMBER() OVER (PARTITION BY item ORDER BY activity_date) rn
    FROM source_table
)
SELECT t1.item,
       t1.activity_type activity_1,
--     ...
       t5.activity_type activity_5,
       t1.activity_date date_1,
--     ...
       t5.activity_date date_5
FROM cte t1
LEFT JOIN cte t2 ON t1.item = t2.item AND t2.rn = 2
LEFT JOIN cte t3 ON t1.item = t3.item AND t3.rn = 3
LEFT JOIN cte t4 ON t1.item = t4.item AND t4.rn = 4
LEFT JOIN cte t5 ON t1.item = t5.item AND t5.rn = 5
WHERE t1.rn = 1

PS。 activity_date列中数据的格式似乎是非标准的，并且可能需要转换到日期数据类型。

Pattern:

WITH cte AS (
    SELECT *, ROW_NUMBER() OVER (PARTITION BY item ORDER BY activity_date) rn
    FROM source_table
)
SELECT t1.item,
       t1.activity_type activity_1,
--     ...
       t5.activity_type activity_5,
       t1.activity_date date_1,
--     ...
       t5.activity_date date_5
FROM cte t1
LEFT JOIN cte t2 ON t1.item = t2.item AND t2.rn = 2
LEFT JOIN cte t3 ON t1.item = t3.item AND t3.rn = 3
LEFT JOIN cte t4 ON t1.item = t4.item AND t4.rn = 4
LEFT JOIN cte t5 ON t1.item = t5.item AND t5.rn = 5
WHERE t1.rn = 1

PS. The format of the data in activity_date column seems to be non-standard, and the convertion to DATE datatype may be required.

回复收藏 0 原文

梦太阳 2025-02-04 16:18:15

您正在寻找枢轴，而不是不散文。

但是就您而言，N Path也有效：

SELECT * 
FROM NPath
       ( ON (
               SELECT ITEM, ACTIVITY_TYPE, ACTIVITY_DATE
               FROM tab
             )
         PARTITION BY ITEM                   -- group by column
         ORDER BY ACTIVITY_DATE              -- order within list
         USING                                      
           MODE (NonOverlapping)             -- required syntax 
           Symbols (True AS T)               -- every row
           Pattern ('T*')                    --   is aggregated
           RESULT(First (item OF T) AS item  -- group by column
                 ,First (ACTIVITY_TYPE OF T) AS activity_1_type
                 ,NTH (ACTIVITY_TYPE,2 OF T) AS activity_2_type
                 ,NTH (ACTIVITY_TYPE,3 OF T) AS activity_3_type
                 ,NTH (ACTIVITY_TYPE,4 OF T) AS activity_4_type
                 ,NTH (ACTIVITY_TYPE,5 OF T) AS activity_5_type
                 ,First (ACTIVITY_DATE OF T) AS activity_1_date
                 ,NTH (ACTIVITY_DATE,2 OF T) AS activity_2_date
                 ,NTH (ACTIVITY_DATE,3 OF T) AS activity_3_date
                 ,NTH (ACTIVITY_DATE,4 OF T) AS activity_4_date
                 ,NTH (ACTIVITY_DATE,5 OF T) AS activity_5_date
                 ,Count(* OF T)
                 )
        )
;

You're looking for PIVOT, not UNPIVOT.

But in your case NPath works, too:

SELECT * 
FROM NPath
       ( ON (
               SELECT ITEM, ACTIVITY_TYPE, ACTIVITY_DATE
               FROM tab
             )
         PARTITION BY ITEM                   -- group by column
         ORDER BY ACTIVITY_DATE              -- order within list
         USING                                      
           MODE (NonOverlapping)             -- required syntax 
           Symbols (True AS T)               -- every row
           Pattern ('T*')                    --   is aggregated
           RESULT(First (item OF T) AS item  -- group by column
                 ,First (ACTIVITY_TYPE OF T) AS activity_1_type
                 ,NTH (ACTIVITY_TYPE,2 OF T) AS activity_2_type
                 ,NTH (ACTIVITY_TYPE,3 OF T) AS activity_3_type
                 ,NTH (ACTIVITY_TYPE,4 OF T) AS activity_4_type
                 ,NTH (ACTIVITY_TYPE,5 OF T) AS activity_5_type
                 ,First (ACTIVITY_DATE OF T) AS activity_1_date
                 ,NTH (ACTIVITY_DATE,2 OF T) AS activity_2_date
                 ,NTH (ACTIVITY_DATE,3 OF T) AS activity_3_date
                 ,NTH (ACTIVITY_DATE,4 OF T) AS activity_4_date
                 ,NTH (ACTIVITY_DATE,5 OF T) AS activity_5_date
                 ,Count(* OF T)
                 )
        )
;

回复收藏 0 原文

~没有更多了~