为大量文档分配唯一 ID

发布于 2024-12-09 21:07:03 字数 150 浏览 6 评论 0原文

本质上，我们希望能够为一大堆文档中包含的所有 N 个克分配唯一的 ID。因此，如果我有 1000 万个文档要处理，我会读取每个文档中的文本并获取 N 元语法（主要是三元语法），并且应该能够为这些 N 元语法分配唯一的 ID。不知何故，我需要存储这些唯一的 ID，以便我可以快速获取它们。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

抚你发端 2024-12-16 21:07:04

根据上面的评论，我建议您只需使用 N 元语法作为它自己的标识符。这样就无需维护从 ID 到 N 元语法的单独映射。

例如，假设您有一个包含文本“hello”的文档，其中包含三元组“hel”、“ell”和“llo”（假设您不包括单词边界）。您可以直接使用 N 元语法，而不是首先设置像 1="hel", 2="ell", 3="llo" 这样的 ID 映射并将文档签名设置为集合 { 1, 2, 3 }作为文档签名 { "hel", "ell", "llo" }。通过这种方式，您甚至可以将扫描和处理阶段合并为一次扫描文档。

回复收藏 0 原文

~没有更多了~