总结数据框中的因素

发布于 2024-12-16 17:31:44 字数 399 浏览 2 评论 0原文

我的数据集如下: http://dl.dropbox.com/u/822467/Data .csv

我的情况是这样的。我有一系列问题(总共 27 个),其答案本质上是二元的。 0=否,1=是,999=缺失。

我的第一个问题是如何将所有列变成因子。我可以使用 as.factors 一项一项地完成它们,但这需要很长时间。

我的第二个问题是,我需要一个摘要,其中问题作为标题,是和否作为第一列,并且单元格中填充了每个问题的“是”和“否”的频率。

我还需要另一个带有 % 的数据框。非常感谢我能得到的任何帮助。我查看了 Hmisc 的包摘要和摘要等,但没有效果。

My dataset is as below: http://dl.dropbox.com/u/822467/Data.csv

My situation is this. I have a series of questions (27 in all) where the response is binary in nature. 0=No, 1=Yes, 999=Missing.

My first problem is how to turn all columns into factors. I can do them one by one using as.factors but it takes forever.

My 2nd problem is that I need a summary with the Questions as headers and Yes and No as the first column and the cells are filled with the frequency of Yes and No for each question.

I would also need another dataframe with the %. Greatly appreciate any help I can have. I've looked into Hmisc's package summarize and summary and so onto no avail.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

一人独醉 2024-12-23 17:31:44

四行代码......

dat <- read.csv("http://dl.dropbox.com/u/822467/Data.csv")
dat[, -1] <- lapply(dat[, -1], factor, levels=c(0, 1, 999), 
    labels=c("No", "Yes", NA))
xx <- do.call(rbind, lapply(dat[, -1], table, useNA="always"))
cbind(xx, sum=rowSums(xx), prop.table(xx, margin=1))

产生以下结果:

    No Yes <NA> sum       No      Yes     <NA>
Q1   7  57    0  64 0.109375 0.890625 0.000000
Q2  40  22    2  64 0.625000 0.343750 0.031250
Q3  28  36    0  64 0.437500 0.562500 0.000000
Q4  43  18    3  64 0.671875 0.281250 0.046875
Q5  24  39    1  64 0.375000 0.609375 0.015625
Q6  21  42    1  64 0.328125 0.656250 0.015625
Q7  15  49    0  64 0.234375 0.765625 0.000000
Q8   4  60    0  64 0.062500 0.937500 0.000000
Q9  60   4    0  64 0.937500 0.062500 0.000000
Q10 39  25    0  64 0.609375 0.390625 0.000000
Q11 55   8    1  64 0.859375 0.125000 0.015625
Q12 20  44    0  64 0.312500 0.687500 0.000000
Q13 49  15    0  64 0.765625 0.234375 0.000000
Q14 49  15    0  64 0.765625 0.234375 0.000000
Q15 51  13    0  64 0.796875 0.203125 0.000000
Q16 61   3    0  64 0.953125 0.046875 0.000000
Q17 41  23    0  64 0.640625 0.359375 0.000000
Q18 60   4    0  64 0.937500 0.062500 0.000000
Q19 64   0    0  64 1.000000 0.000000 0.000000
Q20 60   4    0  64 0.937500 0.062500 0.000000
Q21 60   4    0  64 0.937500 0.062500 0.000000
Q22 43  21    0  64 0.671875 0.328125 0.000000
Q23 59   4    1  64 0.921875 0.062500 0.015625
Q24 10  54    0  64 0.156250 0.843750 0.000000
Q25 54   9    1  64 0.843750 0.140625 0.015625
Q26 24  39    1  64 0.375000 0.609375 0.015625
Q27  0   0   64  64 0.000000 0.000000 1.000000

Four lines of code...

dat <- read.csv("http://dl.dropbox.com/u/822467/Data.csv")
dat[, -1] <- lapply(dat[, -1], factor, levels=c(0, 1, 999), 
    labels=c("No", "Yes", NA))
xx <- do.call(rbind, lapply(dat[, -1], table, useNA="always"))
cbind(xx, sum=rowSums(xx), prop.table(xx, margin=1))

... produces this result:

    No Yes <NA> sum       No      Yes     <NA>
Q1   7  57    0  64 0.109375 0.890625 0.000000
Q2  40  22    2  64 0.625000 0.343750 0.031250
Q3  28  36    0  64 0.437500 0.562500 0.000000
Q4  43  18    3  64 0.671875 0.281250 0.046875
Q5  24  39    1  64 0.375000 0.609375 0.015625
Q6  21  42    1  64 0.328125 0.656250 0.015625
Q7  15  49    0  64 0.234375 0.765625 0.000000
Q8   4  60    0  64 0.062500 0.937500 0.000000
Q9  60   4    0  64 0.937500 0.062500 0.000000
Q10 39  25    0  64 0.609375 0.390625 0.000000
Q11 55   8    1  64 0.859375 0.125000 0.015625
Q12 20  44    0  64 0.312500 0.687500 0.000000
Q13 49  15    0  64 0.765625 0.234375 0.000000
Q14 49  15    0  64 0.765625 0.234375 0.000000
Q15 51  13    0  64 0.796875 0.203125 0.000000
Q16 61   3    0  64 0.953125 0.046875 0.000000
Q17 41  23    0  64 0.640625 0.359375 0.000000
Q18 60   4    0  64 0.937500 0.062500 0.000000
Q19 64   0    0  64 1.000000 0.000000 0.000000
Q20 60   4    0  64 0.937500 0.062500 0.000000
Q21 60   4    0  64 0.937500 0.062500 0.000000
Q22 43  21    0  64 0.671875 0.328125 0.000000
Q23 59   4    1  64 0.921875 0.062500 0.015625
Q24 10  54    0  64 0.156250 0.843750 0.000000
Q25 54   9    1  64 0.843750 0.140625 0.015625
Q26 24  39    1  64 0.375000 0.609375 0.015625
Q27  0   0   64  64 0.000000 0.000000 1.000000
笑叹一世浮沉 2024-12-23 17:31:44

要将所有列转换为因子,您可以使用 lapply 并转换回 data.frame,因为 data.frame 与列表非常相似:

tab <- read.csv("Data.csv")
tab <- as.data.frame(lapply(tab, as.factor))

对于其余部分,我同意 Andrie 的评论......你有吗尝试过 table 功能吗?您可能会感兴趣。

To turn all your columns to factor, you can use lapply and convert back to data.frame, as data.frames are very similar to lists :

tab <- read.csv("Data.csv")
tab <- as.data.frame(lapply(tab, as.factor))

For the rest i agree with Andrie's comment ... Have you tried the table function ? It might interest you.

狂之美人 2024-12-23 17:31:44

这是使用 reshape2 的另一个解决方案。

dat  <- read.csv("http://dl.dropbox.com/u/822467/Data.csv")
dat2 <- setNames(dcast(melt(dat, 1), variable ~ value), c('Q', 'No', 'Yes', NA))
dat2[,-1] = dat2[,-1]/rowSums(dat2[,-1])

Here is a another solution using reshape2.

dat  <- read.csv("http://dl.dropbox.com/u/822467/Data.csv")
dat2 <- setNames(dcast(melt(dat, 1), variable ~ value), c('Q', 'No', 'Yes', NA))
dat2[,-1] = dat2[,-1]/rowSums(dat2[,-1])
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文