从 R 中的现有数据帧中提取数据(或重塑)数据帧
我正在处理一个大型数据框,前几行如下:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 4 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 3 0
8 002 T 4 0
9 003 NA 1 N
10 003 G 2 1
11 003 G 3 1
12 003 T 4 0
总共我将处理 2000 个样本,每个样本进行 168 次检测。对于每个样本,我想提取每个样本的“结果”中的数据,以创建一个列表或数据框,如下所示:
Sample Data
1 00N
2 111
3 001
4 N00
因此,生成的数据框(或类似的首选数据结构)将是 2000 行和 2 列。 “数据”行将包含 168 个字符,每个字符对应每个“测定”。
有人可以帮我解决这个问题吗?
I have a large data frame that Im working with, the first few lines are as follows:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 4 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 3 0
8 002 T 4 0
9 003 NA 1 N
10 003 G 2 1
11 003 G 3 1
12 003 T 4 0
In total I'll be working with 2000 samples and 168 Assays for each sample. For each sample, Id like extract the data in 'Result' for each sample to create either a list or data frame that looks something like this:
Sample Data
1 00N
2 111
3 001
4 N00
The resulting data frame (or similar preferred data structure) would thus be 2000 rows and 2 columns. The 'Data' line would contain 168 characters each one for each 'Assay'.
Can somebody help me with this problem?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
使用包
plyr
和基本函数paste
的一种方法:编辑以解决问题
我能想到的将 NA 更改为 N 的最简单方法可能是对
ddply
的结果使用gsub
。请注意,我大量借用了 @Brian re: ordering 提供的非常好的观点。这样做,这是一个很好的提示!然后使用 gsub
等瞧:
One approach with package
plyr
and base functionpaste
:EDIT to address question
Probably the easiest way I can think of to change your NA to N is to use
gsub
on the result ofddply
. Note I'm liberally borrowing the very good point provided by @Brian re: ordering. Do that, it's a good tip!Then use
gsub
et voila:
使用
split
和sapply
的基本 R 解决方案:Base R solution using
split
andsapply
:请注意,@Chase 和 @Andrie 都假设数据已经按分析排序(您的示例就是这样,所以不是一个不合理的假设)。如果不是,您仍然可以按正确的顺序获取字符串。
适应@Chase的解决方案
给出了
如果我们使用未排序的数据:
我们仍然得到相同的结果
Note that @Chase and @Andrie both assume that the data is already sorted by assay (which your example is, so not an unreasonable assumption). If it is not, you can still get the string in the proper order.
Adapting @Chase's solution
gives
If we use data which is not sorted:
we still get the same result