使用 R 检索 GWAS 信息

发布于 2024-12-09 08:15:22 字数 179 浏览 2 评论 0原文

我正在尝试从 GWAS 目录 获取特定的疾病相关信息。这可以通过下载电子表格直接从网站完成。但我想知道我是否可以在 R 中以编程方式完成它。任何建议将不胜感激。

谢谢。

阿沃克斯

I am trying to get specific disease-related information from the GWAS catalog. This can be done directly from the website via a spreadsheet download. But I was wondering if I could possibly do it programmatically in R. Any suggestions will be greatly appreciated.

Thanks.

Avoks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

灯下孤影 2024-12-16 08:15:22

查看函数 download.file() 和包 rcurl (http://cran.r-project.org/web/packages/RCurl/index.html) - 这应该可以满足您的需求

Checkout the function download.file() and the package rcurl (http://cran.r-project.org/web/packages/RCurl/index.html) - this should do what you are looking for

§对你不离不弃 2024-12-16 08:15:22

您必须先下载 .tsv 文件并手动编辑它们。
这是因为 GWAS 目录文件包含 HTML 符号,例如“Behçet 病”中的 §(定义特殊的第四个字母)。这些符号中的#将被R解释为行尾,因此你会收到一条错误消息,例如:

line 2028 did not have 34 elements

So you download it first, open in plain text编辑器中,自动将每个 # 替换为空字符,然后将其加载到 R 中:

read.table("gwas_catalog_v1.0-associations_e91_r2018-02-21.tsv",sep="\t",h=T,stringsAsFactors = F,quote="")

You will have to download .tsv file(s) first and manually edit them.
This is because GWAS Catalog files contain HTML symbols, like § in "Behçet's disease" (defining that special fourth letter). The # in these symbols will be interpreted by R as an end of line, thus you will get an error message, e.g.:

line 2028 did not have 34 elements

So you downlad it first, open in plain text editor, automatically replace every # with empty character, and only then load it into R with:

read.table("gwas_catalog_v1.0-associations_e91_r2018-02-21.tsv",sep="\t",h=T,stringsAsFactors = F,quote="")
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文