当前位置：文江博客话题详情

通过 wget 获取到内存&绕过磁盘写入

发布于 2024-08-17 07:58:15 字数 233 浏览 7 评论 0原文

是否可以将网站内容（一组 HTML 页面）直接下载到内存而不写入磁盘？

我有一个机器集群，每台机器安装了 24G，但磁盘配额限制为几百 MB。我正在考虑将输出 wget 重定向到某种内存结构，而不将内容存储在磁盘上。另一个选择是创建我自己的 wget 版本，但可能有一种简单的方法可以使用管道来完成此操作

另外，并行运行此下载的最佳方法是什么（集群有 > >） 20 个节点）。在这种情况下无法使用文件系统。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

远昼 2024-08-24 07:58:15

请参阅 wget 下载选项：

<块引用>
'-O 文件'
'--output-document=文件'
文档不会写入相应的文件，但所有文档都会连接在一起并写入文件。如果使用“-”作为文件，文档将打印到标准输出，禁用链接转换。（使用“./-”打印到字面名称为“-”的文件。）

如果要将文件读入 Perl 程序，可以使用反引号调用 wget。

根据您真正需要做什么，您也许可以通过使用 LWP::Simple 的 get。

use LWP::Simple;
my $content = get("http://www.example.com/");
die "Couldn't get it!" unless defined $content;

更新：我不知道您可以使用Fuse 和 Fuse.pm。另请参阅Fuse::InMemory。

See wget download options:

‘-O file’
‘--output-document=file’
The documents will not be written to the appropriate files, but all will be concatenated together and written to file. If ‘-’ is used as file, documents will be printed to standard output, disabling link conversion. (Use ‘./-’ to print to a file literally named ‘-’.)

If you want to read the files into a Perl program, you can invoke wget using backticks.

Depending on what you really need to do, you might be able to get by just using LWP::Simple's get.

use LWP::Simple;
my $content = get("http://www.example.com/");
die "Couldn't get it!" unless defined $content;

Update: I had no idea you could implement your own file system in Perl using Fuse and Fuse.pm. See also Fuse::InMemory.

回复收藏 0 原文

寻找一个思念的角度 2024-08-24 07:58:15

如果您 a) 已经在使用 Perl，b) 想要下载 HTML，c) 解析它，我总是推荐 LWP 和 HTML::TreeBuilder。

回复收藏 0 原文

万人眼中万个我 2024-08-24 07:58:15

你是根吗？您可以只使用 tmpfs。

重新编辑：您不受 CPU 限制，不需要使用每台机器。您可以使用 xargs -n SOME_NUMBER 来拆分根网址列表（假设有多个）。

但如果你热衷于共享内存，你可以设置一个集群memcache，并使用 memcachefs。

回复收藏 0 原文

-小熊_ 2024-08-24 07:58:15

wget <url> -O -

将 URL 的内容写入标准输出，然后可以在内存中捕获。

wget <url> -O -

Will write the contents of a URL to standard output, which can then be captured in memory.

回复收藏 0 原文

~没有更多了~

关于作者

莫多说

暂无简介

0 文章

0 评论

20 人气

关注发私信

不再见

文章 0 评论 0

关注

真是无聊啊

文章 0 评论 0

关注

樱娆

文章 0 评论 0

关注

浅语花开

文章 0 评论 0

关注

烛光

文章 0 评论 0

关注

绻影浮沉

文章 0 评论 0

友情链接

文江博客

通过 wget 获取到内存&绕过磁盘写入

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

不再见

真是无聊啊

樱娆

浅语花开

烛光

绻影浮沉

友情链接

通过 wget 获取到内存&绕过磁盘写入

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

不再见

真是无聊啊

樱娆

浅语花开

烛光

绻影浮沉

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。