appengine 任务负载可以有多大？

发布于 2024-08-15 19:53:57 字数 416 浏览 7 评论 0原文

我正在使用 java appengine 的新实验任务队列，并且正在尝试创建在数据存储中聚合统计信息的任务。我正在尝试计算数据存储中所有实体（某种类型）中唯一值的数量。更具体地说，假设类型 X 的实体有一个字段 A。我想计算数据存储中 A 的唯一值的数量。

我当前的方法是创建一个查询 X 类型的前 10 个实体的任务，创建一个哈希表来存储 A 的唯一值，然后将该哈希表作为有效负载传递给下一个任务。下一个任务将计算接下来的 10 个实体，依此类推，直到我遍历完所有实体。在执行最后一个任务期间，我将计算哈希表中的键数（一直从一个任务传递到另一个任务），以查找 A 的唯一值的总数。

这适用于我的数据存储。但我担心一旦我有很多唯一值，这个哈希表就会变得太大。 appengine 任务的有效负载允许的最大大小是多少？？？

您能建议任何替代方法吗？

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

寄意 2024-08-22 19:53:57

根据文档，最大任务对象大小为 100K。

回复收藏 0 原文

酒与心事 2024-08-22 19:53:57

“你能建议任何替代方法吗？”。

通过基于值构造键并使用 Model.get_or_insert 来为每个唯一值创建一个实体。然后，使用正常的分页技巧，Query.count 以 1000 个为一批（或者在请求超时之前可以计算出的数量 - 超过 10 个）来增加实体。

或者使用类似于 get_or_insert 文档中给出的代码来随时保持计数 - App Engine 事务可以运行多次，因此事务中递增的 memcached 计数将不可靠。不过，这可能有一些技巧，或者您可以将计数保留在数据存储中，前提是您没有对实体父级做任何太不愉快的事情。

回复收藏 0 原文

秉烛思 2024-08-22 19:53:57

这可能为时已晚，但也许有用。首先，只要您有机会想要连续浏览一组实体，建议使用已索引的 date_created 或 date_modified auto_update 字段。从此时起，您可以使用 TextProperty 创建一个模型，以使用 json.dumps() 存储哈希表。您需要做的就是传递最后处理的日期以及哈希表实体的模型 ID。使用 date_created 晚于最后一个日期、json_load() TextProperty 进行查询，并累积接下来的 10 条记录。可以变得更复杂一些（例如，通过利用传递的参数和稍微不同的查询方法来处理 date_created 冲突）。为下一个任务添加 1 秒倒计时，以避免因过快更新哈希表实体而出现任何问题。 HTH，-史蒂夫

回复收藏 0 原文

~没有更多了~