当前位置：文江博客话题详情

从S3下载大量文件

发布于 2024-07-25 09:36:41 字数 211 浏览 8 评论 0原文

使用 Python 从 Amazon S3 获取大量文件（相对较小的 10-50kB）的最快方法是什么？（大约 200,000 - 百万个文件）。

目前我正在使用 boto 生成签名 URL，并使用 PyCURL 来一一获取文件。

某种类型的并发会有帮助吗？ PyCurl.CurlMulti 对象？

我对所有建议持开放态度。谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

慕烟庭风 2024-08-01 09:36:42

我一直在使用 txaws 和twisted 进行S3 工作，尽管您可能想要的只是获取经过身份验证的URL 并使用twisted.web.client.DownloadPage （默认情况下会很高兴从流到文件，无需太多交互）。

Twisted 可以轻松地以您想要的任何并发速度运行。对于 200,000 个数量级的内容，我可能会制作一个生成器并使用合作器来设置我的并发性，然后让生成器生成每个所需的下载请求。

如果您不熟悉twisted，您会发现该模型需要一些时间来适应，但这是非常值得的。在这种情况下，我希望它占用最少的 CPU 和内存开销，但您必须担心文件描述符。如果您发现自己需要更多文件描述符，或者您希望通过多个连接来断开连接，则可以很容易地混合透视代理并将工作分配到多台计算机上。

回复收藏 0 原文

就像说晚安 2024-08-01 09:36:42

线程 + 队列怎么样，我喜欢这篇文章：Python 实用线程编程< /a>

回复收藏 0 原文

行至春深 2024-08-01 09:36:42

每项工作都可以使用适当的工具来完成:)

你想使用python进行S3压力测试:)，所以我建议找到一个大容量的下载程序并传递链接到它。

在 Windows 上，我有安装 ReGet 程序（共享软件，来自 http://reget.com）并通过以下方式创建下载任务的经验： COM接口。

当然，可能还有其他具有可用界面的程序存在。

问候！

回复收藏 0 原文

ま柒月 2024-08-01 09:36:41

我对 python 一无所知，但一般来说，您会希望将任务分解成更小的块，以便它们可以同时运行。您可以按文件类型、字母顺序或其他方式将其分解，然后为分解的每个部分运行单独的脚本。

回复收藏 0 原文

同尘 2024-08-01 09:36:41

对于Python来说，由于这是IO绑定的，多个线程将使用CPU，但它可能只会使用一个核心。如果您有多个核心，您可能需要考虑新的多处理器模块。即使如此，您可能仍希望每个进程使用多个线程。您必须对处理器和线程的数量进行一些调整。

如果您确实使用多个线程，那么这是 Queue 类的良好候选者。

回复收藏 0 原文

执手闯天涯 2024-08-01 09:36:41

您可以考虑使用 s3fs，并仅从 Python 运行并发文件系统命令。

回复收藏 0 原文

~没有更多了~

关于作者

〆凄凉。

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

从S3下载大量文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

从S3下载大量文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。