Python 中的并行处理选项

发布于 2024-12-08 10:25:20 字数 298 浏览 0 评论 0原文

我最近创建了一个 python 脚本，它执行一些自然语言处理任务，并且很好地解决了我的问题。但花了9个小时。我首先研究了使用 hadoop 将问题分解为多个步骤，并希望利用通过使用 Amazon Web Services 获得的可扩展并行处理。

但我的一个朋友指出，Hadoop 实际上是为了在磁盘上存储大量数据，您需要对其执行许多简单的操作。在我的情况下，我有一个相对较小的初始数据集（低 100 Mbs），我在其中执行许多复杂的操作，在此过程中占用大量内存，并花费很多时间。

我可以在脚本中使用什么框架来利用 AWS（或类似服务）上的可扩展集群？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

也只是曾经 2024-12-15 10:25:20

并行 Python 是将事物分布到集群中的多台计算机上的一种选择。

回复收藏 0 原文

维持三分热 2024-12-15 10:25:20

此示例展示了如何执行类似 MapReduce 的脚本，在单台机器上使用进程。其次，如果可以的话，尝试缓存中间结果。我为 NLP 任务执行了此操作，并获得了显着的加速。

回复收藏 0 原文

游魂 2024-12-15 10:25:20

我的软件包 jug 可能非常适合您的需求。如果没有更多信息，我无法真正说出代码的样子，但我是为 sub-hadoop 大小的问题设计的。

回复收藏 0 原文

~没有更多了~

关于作者

任性一次

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

Python 中的并行处理选项

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

Python 中的并行处理选项

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。