关于在工作节点上分发 python 数据/代码的建议？

发布于 2025-01-06 08:23:54 字数 404 浏览 3 评论 0原文

我开始尝试分布式代码，但无法根据现有的所有内容找出适合我需求的解决方案。基本上我有一个 python 数据列表，我需要用一个函数来处理它。该函数有一些嵌套的 for 循环，但对于列表中的每个项目都不会花费太长时间（大约一分钟）。我的问题是列表非常大（3000+ 项）。我正在考虑多重处理，但我想我想尝试多服务器处理（因为理想情况下，如果数据变得更大，我希望能够选择在工作期间添加更多服务器以使其运行得更快）。

我基本上是在寻找可以通过它分发此数据列表的东西（不是超级需要的，但如果我也可以通过它分发我的代码库，那就太好了）

所以我的问题是，我可以使用什么包来实现这一点？我的数据库是 hbase，所以我已经运行了 hadoop（不过从未使用过 hadoop，只是将其用于数据库）。我也看了芹菜和扭曲，但我很困惑哪个适合我的需要。

有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

眼趣 2025-01-13 08:23:54

我强烈推荐 celery。您可以定义一个对列表中的单个项目进行操作的任务：

from celery.task import task
@task
def process(i):
    # do something with i
    i += 1
    # return a result
    return i

您可以轻松地并行化列表，如下所示：

results = []
todo = [1,2,3,4,5]
for arg in todo:
    res = process.apply_async(args=(arg))
    results.append(res)

all_results = [res.get() for res in results]

只需添加更多 celery 工作人员即可轻松扩展。

I would highly recommend celery. You can define a task that operates on a single item of your list:

from celery.task import task
@task
def process(i):
    # do something with i
    i += 1
    # return a result
    return i

You can easily parallelize a list like this:

results = []
todo = [1,2,3,4,5]
for arg in todo:
    res = process.apply_async(args=(arg))
    results.append(res)

all_results = [res.get() for res in results]

This is easily scalable by just adding more celery workers.

回复收藏 0 原文