数据框中的数据摘要
我还有一个关于从我正在使用的大型数据框架中进行数据挖掘的问题,前几行如下:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 4 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 3 0
8 002 T 4 0
9 003 NA 1 NA
10 003 G 2 1
11 003 G 3 1
12 003 T 4 0
总共我将处理 2000 个样本,每个样本进行 168 次分析。
我想根据这些数据生成一个汇总表,告诉我每个“结果”有多少“样本”。 “结果”只有 3 个选项:1、0 或 NA。我希望结果有一个如下所示的数据框(使用上述数据):
Assay 1 0 NA
001 1 2 1
002 1 3 0
003 2 1 1
正如我上面提到的,有 168 种不同的化验,它们不是简单地标记在数字系列中,因此必须从化验 ID 中提取原始数据框。 在理想的情况下,我还希望看到数字旁边(或在不同的表中)列出的每个“结果”的样本百分比。
I have another question concerning data mining from a large data frame that Im working with, the first few lines are as follows:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 4 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 3 0
8 002 T 4 0
9 003 NA 1 NA
10 003 G 2 1
11 003 G 3 1
12 003 T 4 0
In total I'll be working with 2000 samples and 168 Assays for each sample.
Id like to generate a summary table from this data that tells me how many 'Samples' have each 'Result'. There are only 3 options for 'Result' 1, 0, or NA. I would like the result to have a data frame that looks like this (using the above data):
Assay 1 0 NA
001 1 2 1
002 1 3 0
003 2 1 1
As I mentioned above there are 168 different Assays and they are not simply labeled in a numeric series, so the Assay ID must be extracted from the original data frame.
In an ideal world, I would also like to see a percentage of samples for each 'Result' listed next to the numbers (or in a different table).
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
与 @MYaseen208 类似,但添加 NA 列:
请参阅:
?table
Like @MYaseen208 but adding NA column:
See:
?table
尝试
Try