当前位置：文江博客话题详情

提高预处理大型文档集的性能

发布于 2024-11-01 16:46:51 字数 148 浏览 7 评论 0原文

我正在开发一个与使用 Java 的抄袭检测框架相关的项目。我的文档集包含大约 100 个文档，我必须对它们进行预处理并存储在合适的数据结构中。我有一个大问题，即如何有效地处理大量文档并避免瓶颈。我的问题主要集中在如何提高预处理性能。

谢谢

问候女宛

需要登录才能够评论，你可以免费注册一个本站的账号。

只是偏爱你 2024-11-08 16:46:51

你那里有点缺乏细节。适当的优化将取决于文档格式、平均文档大小、处理它们的方式以及在数据结构中存储的信息类型等因素。不知道其中任何一个，一些一般的优化是：

假设给定文档的预处理独立于任何其他文档的预处理，并且假设您正在运行多核 CPU，那么您的工作负载是多线程的良好候选者。为每个 CPU 核心分配一个线程，并将作业分配给您的线程。然后您可以并行处理多个文档。
更一般地说，尽可能多地在内存中进行操作。尽量避免读取/写入磁盘。如果必须写入磁盘，请尝试等到拥有要写入的所有数据，然后将其全部写入一个批次。