使用 R 下载 gzip 数据文件、提取和导入数据
此问题的后续 :如何使用 R 下载并解压缩 gzip 压缩文件?例如(来自 UCI 机器学习存储库),我有一个 保险数据文件。如何使用 R 下载它?
以下是数据网址:http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz
。
A follow up to this question: How can I download and uncompress a gzipped file using R? For example (from the UCI Machine Learning Repository), I have a file of insurance data. How can I download it using R?
Here is the data url: http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz
.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
我喜欢 Ramnath 的方法,但我会像这样使用临时文件:
list.files()
应该生成类似这样的内容:如果您需要对大量文件自动执行此过程,您可以对其进行解析。
I like Ramnath's approach, but I would use temp files like so:
The
list.files()
should produce something like this:which you could parse if you needed to automate this process for a lot of files.
这是一种快速的方法。
Here is a quick way to do it.
请参阅
help(download.file)
的内容。如果相关文件只是一个 gzip 压缩但可读的文件,您也可以将完整的 URL 提供给 read.table() 等。Please the content of
help(download.file)
for that. If the file in question is merely a gzipped but otherwise readable file, you can feed the complete URL toread.table()
et al too.使用
library(archive)
还可以读取存档中的特定csv文件,而无需先解压它:read_csv(archive_read("http://archive.ics.uci.edu) /ml/databases/tic/tic.tar.gz", file = 1), col_types = cols())
这要快一些。
要解压缩所有内容,可以执行
archive_extract("http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz", dir=XXX)
。这对我和我来说非常有效。比未构建的
untar()
更快。它也适用于所有平台。它支持“tar”、“ZIP”、“7-zip”、“RAR”、“CAB”、“gzip”、“bzip2”、“compress”、“lzma”和“xz”格式。Using
library(archive)
one can also read in a particular csv file within an archive without having to UNZIP it first :read_csv(archive_read("http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz", file = 1), col_types = cols())
This is quite a bit faster.
To unzip everything one can do
archive_extract("http://archive.ics.uci.edu/ml/databases/tic/tic.tar.gz", dir=XXX)
.That worked very well for me & is faster than the unbuilt
untar()
. It also works on all platforms. It supports 'tar', 'ZIP', '7-zip', 'RAR', 'CAB', 'gzip', 'bzip2', 'compress', 'lzma' and 'xz' formats.