Google App Engine：如何使用任务队列进行此处理？

发布于 2024-09-09 18:27:12 字数 770 浏览 5 评论 0原文

我正在使用 Python GAE SDK。

我需要对 6000 多个 MyKind 实例进行一些处理。在单个请求中完成速度太慢，因此我使用任务队列。如果我让一个任务只处理一个实体，那么它应该只需要几秒钟。

文档规定只能添加 100 个任务“批量”。（他们的意思是什么？在一个请求中？在一个任务中？）

因此，假设“批量”意味着“请求”，我试图找出为每个实体创建任务的最佳方法是什么数据存储。你怎么认为？

如果我可以假设 MyKind 的顺序永远不会改变，那就更容易了。（处理实际上永远不会改变 MyKind 实例 - 它只会创建其他类型的新实例。）我可以做一堆任务，给每个任务一个从哪里开始的偏移量，间隔小于相差100。然后，每个任务可以创建执行实际处理的单独任务。

但是，如果实体太多，原始请求无法添加所有必要的调度任务怎么办？这让我觉得我需要一个递归解决方案 - 每个任务都会查看给定的范围。如果该范围中仅存在一个元素，则会对其进行处理。否则，它将范围进一步细分为后续任务。

如果我不能指望使用偏移量和限制来识别实体（因为它们的顺序不能确保恒定），也许我可以只使用它们的键？但随后我可能会发送数千把钥匙，这似乎很麻烦。

我在这里走的是正确的道路吗？或者我应该考虑其他设计吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

四叶草在未来唯美盛开 2024-09-16 18:27:12

当您运行像 taskqueue.add(url='/worker', params={'cursor':cursor}) 这样的代码时，您正在将任务排入队列；使用您提供的参数安排请求在带外执行。显然，您可以在一项操作中安排最多 100 个这样的操作。

但我认为你不想这么做。任务链将使这变得更加简单：

您的工作任务将执行如下操作：

运行查询以获取一些记录进行处理。如果任务参数中提供了光标，请使用它。将查询限制为 10 条记录，或者您认为可以在 30 秒内完成的任何内容。
处理您的 10 条记录
如果您的查询返回 10 条记录，请将另一个任务排入队列并向其传递查询中更新后的游标，以便它可以从您上次停下的地方继续。
>
如果您的记录少于 10 条，则您已完成。万岁！发送一封电子邮件或其他内容并退出。

通过这条路线，你只需要开始第一个任务，其余的任务就可以自行添加。

请注意，如果某项任务失败，App Engine 将重试直至成功，因此您无需担心数据存储故障会导致一项任务超时并破坏链条。

编辑：

上述步骤并不能保证实体只会被处理一次。任务通常应该只运行一次，但谷歌确实建议你设计幂等性。如果这是一个主要问题，则有一种处理方法：

在每个要处理的实体上放置一个状态标志，或创建一个补充实体来保存该标志。它应该具有类似于“待处理”、“正在处理”和“已处理”的状态。
当您获取要处理的新实体时，以事务方式锁定并递增处理标志。仅当实体处于待处理状态时才运行该实体。处理完成后，再次增加该标志。

请注意，在开始之前，不一定要向每个实体添加处理标志。您的“待处理”状态可能仅意味着该属性或相应的实体尚不存在。

回复收藏 0 原文

若水微香 2024-09-16 18:27:12

另外，根据您的设计，您可以执行我所做的操作，即对需要处理的所有记录进行编号。我处理了大约 3500 个项目，每个项目需要 3 秒左右的时间来处理。为了避免重叠、超时并考虑到将来的扩展，我的第一个任务从数据库中获取该类型的所有唯一项目的列表。然后，它将其分为每个项目标识符 500 个的列表，循环直到它考虑了数据库中的所有唯一项目，并将 500 个标识符的每个块发布到第二层处理程序任务。第二个处理程序任务中的每一个（当前有七到八个不同的任务）都有一个包含 500 个项目的唯一列表，并且每个处理程序任务都添加 500 个任务，每个任务对应一个唯一标识符。

由于它都是通过循环进行管理的，并根据数据库中唯一项目的数量进行计数，因此我可以添加任意数量的唯一项目，并且任务数量将扩展以容纳它们，并且绝对不会重复。我每天用它来跟踪游戏中的价格，所以这一切都是使用 cron 作业启动的，根本不需要我干预。

回复收藏 0 原文

~没有更多了~