列出具有 2 列子行作为重复项的所有行的 SQL 查询是什么?
我有一个包含冗余数据的表,并且我正在尝试识别具有重复子行的所有行(因为缺乏更好的词)。 我所说的子行是指仅考虑 COL1
和 COL2
。
假设我有这样的东西:
COL1 COL2 COL3
---------------------
aa 111 blah_x
aa 111 blah_j
aa 112 blah_m
ab 111 blah_s
bb 112 blah_d
bb 112 blah_d
cc 112 blah_w
cc 113 blah_p
我需要一个返回以下内容的 SQL 查询:
COL1 COL2 COL3
---------------------
aa 111 blah_x
aa 111 blah_j
bb 112 blah_d
bb 112 blah_d
I have a table that has redundant data and I'm trying to identify all rows that have duplicate sub-rows (for lack of a better word). By sub-rows I mean considering COL1
and COL2
only.
So let's say I have something like this:
COL1 COL2 COL3
---------------------
aa 111 blah_x
aa 111 blah_j
aa 112 blah_m
ab 111 blah_s
bb 112 blah_d
bb 112 blah_d
cc 112 blah_w
cc 113 blah_p
I need a SQL query that returns this:
COL1 COL2 COL3
---------------------
aa 111 blah_x
aa 111 blah_j
bb 112 blah_d
bb 112 blah_d
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(10)
像这样的事情应该有效:
一般来说,JOIN 子句应该包括您考虑作为“重复”部分的每一列(本例中为 COL1 和 COL2),以及至少一列(或尽可能多的列) )以消除与其自身连接的行(在本例中为 COL3)。
Something like this should work:
In general, the JOIN clause should include every column that you're considering to be part of a "duplicate" (COL1 and COL2 in this case), and at least one column (or as many as it takes) to eliminate a row joining to itself (COL3, in this case).
我天真的尝试是,
但这会返回所有行两次。 我不确定你如何将其限制为仅返回一次。 也许如果有主键,您可以添加“and a.pkey < b.pkey”。
就像我说的,这并不优雅,可能有更好的方法来做到这一点。
My naive attempt would be
but that would return all the rows twice. I'm not sure how you'd restrict it to just returning them once. Maybe if there was a primary key, you could add "and a.pkey < b.pkey".
Like I said, that's not elegant and there is probably a better way to to do this.
没有方便的数据库来测试这个,但我认为它应该可以工作......
Don't have a database handy to test this, but I think it should work...
像这样加入自己:
如果您使用 postgresql,您可以使用 oid 使其返回更少的重复结果,如下所示:
Join on yourself like this:
If you're using postgresql, you can use the oid to make it return less duplicated results, like this:
根据您列出的数据,您的查询是不可能的。 第 5 行和第 5 行的数据 6本身并不独特。
假设您的表名为“quux”,如果您从这样的内容开始:
您最终会得到这个答案:
那是因为第 5 行和第 5 行是 6 的 COL3 具有相同的值。 任何返回第 5 行和第 5 行的查询 6 还将返回该数据集中所有行的重复项。
另一方面,如果您有主键 (ID),那么您可以改用此查询:
[已编辑以简化 WHERE 子句]
您将得到您想要的结果:
我只是我们在 SQL Server 2000 上对此进行了测试,但您应该在任何现代 SQL 数据库上看到相同的结果。
blorgbeard 证明了我错误——对他有好处!
With the data you have listed, your query is not possible. The data on rows 5 & 6 is not distinct within itself.
Assuming that your table is named 'quux', if you start with something like this:
You'll end up with this answer:
That's because rows 5 & 6 have the same values for COL3. Any query that returns both rows 5 & 6 will also return duplicates of ALL of the rows in this dataset.
On the other hand, if you have a primary key (ID), then you can use this query instead:
[Edited to simplify the WHERE clause]
And you'll get the results you want:
I just tested this on SQL Server 2000, but you should see the same results on any modern SQL database.
blorgbeard proved me wrong -- good for him!
这与自连接非常相似,只是它不会有重复项。
This is pretty similar to the self-join, except it will not have the duplicates.
以下是查找重复项的方法。 使用您的数据在 oracle 10g 中进行了测试。
从 tst 中选择 *
其中 (col1, col2) 在
(从 tst 组中选择 col1、col2,其中 count(*) > 1)
Here is how you find duplicates. Tested in oracle 10g with your data.
select * from tst
where (col1, col2) in
(select col1, col2 from tst group by col1, col2 having count(*) > 1)
COL1、COL2、COL3
从表
组中选择 COL1、COL2、COL3
按 count(*)>1 的
select COL1,COL2,COL3
from table
group by COL1,COL2,COL3
having count(*)>1
忘记连接——使用分析函数:
Forget joins -- use an analytic function:
这对你有用吗?
Does this work for you?