从数据框中提取重复行
我正在处理一个大型数据框,前几行如下:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 1 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 2 0
8 002 T 4 0
9 003 NA 1 NA
总共我将处理 2000 个样本,每个样本进行 168 次检测。
我想提取具有相同测定和样品的多个条目的行。我希望结果数据位于包含所有重复条目的数据框中,并进行排序以使重复项彼此相邻。从上面的示例来看,结果将如下所示:
Assay Genotype Sample Result
1 001 G 1 0
4 001 NA 1 NA
6 002 G 2 1
7 002 T 2 0
I have a large data frame that Im working with, the first few lines are as follows:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 1 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 2 0
8 002 T 4 0
9 003 NA 1 NA
In total I'll be working with 2000 samples and 168 Assays for each sample.
Id like to extract the lines where I have multiple entries with both the same Assay and Sample. I want the resulting data to be in a data frame containing all of the duplicate entries, sorted such that the duplicates are next to each other. From the example above the result would look like this:
Assay Genotype Sample Result
1 001 G 1 0
4 001 NA 1 NA
6 002 G 2 1
7 002 T 2 0
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
易于加载的演示数据:
您可以使用
duplicated
轻松获得重复的检测/样品对:结果:
需要一个简单的
合并
来获得所需的结果:Demo data for easy loading:
You could easily get the dupicated Assay/Sample pairs with
duplicated
:Resulting in:
Which needs a simple
merge
for required result: