如何使用 R 的 RecordLinkage 包获取匹配对
谁能告诉我我在这里做错了什么。我正在尝试在玩具数据集上测试 R 包 RecordLinkage 的比较函数,
> test<-cbind(
+ a = c(1, 1, 1),
+ b = c(2, 0, 2),
+ c = c(1, 2, 1))
>
> test
a b c
[1,] 1 2 1
[2,] 1 0 2
[3,] 1 2 1
>
> results <- compare.dedup(test)
>
> results$pairs
id1 id2 a b c is_match
1 1 2 1 0 0 NA
2 1 3 1 1 1 NA
3 2 3 1 0 0 NA
>
记录 1 和记录 3 明显匹配,但 is_match 对于所有三对来说都是 NA。
Can anyone tell me what I'm doing wrong here. I am trying to test the R package RecordLinkage's compare function on a toy dataset
> test<-cbind(
+ a = c(1, 1, 1),
+ b = c(2, 0, 2),
+ c = c(1, 2, 1))
>
> test
a b c
[1,] 1 2 1
[2,] 1 0 2
[3,] 1 2 1
>
> results <- compare.dedup(test)
>
> results$pairs
id1 id2 a b c is_match
1 1 2 1 0 0 NA
2 1 3 1 1 1 NA
3 2 3 1 0 0 NA
>
Records 1 and 3 clearly match but is_match is NA for all three pairs.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
因为你忘记使用身份索引:
because you forgot to use a identity index:
对于像我一样偶然遇到这个问题的任何人:输入
R。它解释了 Identity.RLdata500 是一个单独定义的向量,它保存唯一的 ID。
我认为,它是单独定义的,因为否则,数据将被某些函数自动使用,除非明确告诉它们不要这样做......
要查看哪些行是重复的,请在 R 中键入以下内容:
For anyone, who stumbles accross this question like me: type
in R. It explains that identity.RLdata500 is a separatly defined vector, that holds the unique ID's.
I think, it is define separatly, because otherwise, the data would be used by some of the functions automatically, unless they would be explicitly told, to do not so...
To see, which rows are duplicates, type the following in R:
我遇到了同样的问题,并且我有这个答案的可能解决方案这是由于身份参数。
从样本数据中,在Record Linkage包中,我发现这个向量
identity.RLdata500
携带了关于RLdata500
的重复记录的信息,在500条记录中,50条是我发现的 重复记录我的数据集中的相似列并存储为单独的向量并将向量传递给身份参数
I faced the same issue and I have the possible solution for this answer This is due to identity parameter.
from the sample data, in Record Linkage package, I found that this vector
identity.RLdata500
carry information about the duplicate records ofRLdata500
out of 500 records 50 are duplicate recordsI found the similar column in my dataset and stored as a separate vector and passed the vector to the identity parameter