阅读文档时使用并行算法

发布于 2024-11-02 16:34:13 字数 324 浏览 4 评论 0原文

可能的重复：
提高预处理大量文档的性能

嗨，我有一个包含大约 100 个文档的文档集。我必须预处理每个文档并将这些文档相互比较。如果我按顺序进行，将消耗大量时间。所以我想知道一些可以使用的并行算法以及如何使用 Java 实现这些算法。

拉加兹, 女湾

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谢绝鈎搭 2024-11-09 16:34:14

有很多关于检测文档相似性的文献。您需要进行文献检索和/或网络搜索来查找符合您要求的软件/算法/技术。

简单地用强力并行成对比较替换强力顺序成对比较并不是答案。这种方法只能给您带来 O(P) 加速（最多），您必须处理 O(N^2 * S^2)，其中 N 是文档数量，S 是平均文档大小。

首先，查找两个大型文本文件之间相似性的经典方法包括将每个文件分成行，计算每个文件行的哈希值，对哈希值进行排序并进行比较。这个过程是O(SlogS) ...

回复收藏 0 原文

猫弦 2024-11-09 16:34:14

如果您有文档 d1、d2、d3、d4 - 如果您将每个文档与所有其他文档进行比较，那么它将是 O(N^2)。但是，我假设比较 d1 与 d2 与比较 d2 与 d1 相同，因此您可以在那里进行优化。所以基本上，你只需要比较 d1-d2、d1-d3、d1-d4、d2-d3、d2-d4、d3-d4，即 O((N-1)!) 。

或许可以从构建所有需要进行的比较的地图开始。然后，将该映射拆分为 X 个大小相等的集合，其中 X 是要运行的进程数。最后，分出那么多线程（或将工作分配给那么多服务器），让它们运行，然后将结果合并在一起。

如果您需要单独预处理每个文档（因此此时比较实际上并不重要），那么只需将问题分解为所需的多个进程，然后将工作分配到各个进程即可。由于不真正了解您正在处理哪种预处理、比较和文档类型，我无法真正了解比这更多的细节。

回复收藏 0 原文