使用 R 进行文本关联

发布于 2024-12-09 06:22:23 字数 337 浏览 3 评论 0原文

我的数据看起来像(示例)

ID     Col1     Col2
1232   ABCSD    abd
2342   ABCSD    esw
7643   ABCSD    rty
9821   ETHS     fvc

我有 2845428 这样的行。我想找出 Col1Col2 中每一对的相关性如何。例如,

ABCSD     abd     0.64
ETHS      fvc     0.23

我如何使用 R 来实现它?谢谢

My data looks like (example)

ID     Col1     Col2
1232   ABCSD    abd
2342   ABCSD    esw
7643   ABCSD    rty
9821   ETHS     fvc

I have 2845428 such rows. I want to find out how correlated each pair in Col1 and Col2 is. For example

ABCSD     abd     0.64
ETHS      fvc     0.23

How can I go about it using R? Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

凉栀 2024-12-16 06:22:23

我假设通过相关性你的意思是“ABCSD 观测值的哪一部分在 Col2 中有 abd...”

如果你的数据位于名为 df 的数据框中,

#get the absolute frequency
freqs <- ftable(df[,2:3])  

#convert to relative frequency
freqs <- freqs/rowSums(freqs)

#then to get the format you want
library(reshape)
freqs <- melt(freqs)

I assume that by correlation you mean something like "what portion of the ABCSD observations have abd in Col2..."

If your data are in a dataframe named df,

#get the absolute frequency
freqs <- ftable(df[,2:3])  

#convert to relative frequency
freqs <- freqs/rowSums(freqs)

#then to get the format you want
library(reshape)
freqs <- melt(freqs)
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文