在R中确定两个数据集之间的不同行

发布于 2024-09-07 20:09:49 字数 443 浏览 5 评论 0原文

我有两个制表符分隔的 CSV 格式的数据文件。文件采用以下格式:

EP Code    EP Name    Address    Region    ...
101654    Alpha     York Street    Northwest    ...
103628    Beta    5th Avenue    South    ...

EP 代码是唯一的。我想要做的是比较两个文件的 EP 代码,确定不同的行并将它们写入一个新文件。

例如,file1.csv 有 800 行,file2.csv 有 850 行。 file2 可以是完全包含 file1 加上 50 行的文件;或者它可以是file1 - 10 rows + 60 rows。我想确定两个数据集之间的差异。我对相互争吵不感兴趣。

我怎样才能在 R 中做到这一点?

I have two data files in tab separated CSV format. The files are in the following format:

EP Code    EP Name    Address    Region    ...
101654    Alpha     York Street    Northwest    ...
103628    Beta    5th Avenue    South    ...

EP codes are unique. What I want to do is to compare two files with respect to EP codes, determine the different rows and write them into a new file.

For example, file1.csv has 800 rows and file2.csv has 850 rows. file2 could be a file completely including file1 plus 50 rows; or it could be file1 - 10 rows + 60 rows. I want to determine the differences between two data sets. I'm not interested in the mutual rows.

How can I do that in R?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

如梦 2024-09-14 20:09:49

有很多方法可以做到这一点,包括 setdiffintersect%in% 函数、is.element 。只需找到相交集并使用 ! 将其排除:

diff1 <- file1[setdiff(file1$ep.code, file2$ep.code),]

diff2 <- file2[!(intersect(file2$ep.code, file1$ep.code)),]

There are many ways to do this, including setdiff, intersect, the %in% function, is.element. Just find the intersecting set and exclude it using !:

diff1 <- file1[setdiff(file1$ep.code, file2$ep.code),]

or

diff2 <- file2[!(intersect(file2$ep.code, file1$ep.code)),]
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文