如何使用 Lucene Solr 索引近 300 万个 xml 文件

发布于 2024-11-28 04:26:41 字数 106 浏览 1 评论 0原文

我正在尝试使用 lucene solr 索引近 300 万个 xml 文件。当我尝试使用命令行“java -jar post.jar *.xml”时。机器没有任何反应。我怎样才能进行索引?非常感谢。

I am trying to index almost 3 million xml files with lucene solr. When I try to use command line "java -jar post.jar *.xml". There is no response from the machine. How can I do the indexing? Big thanks.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

葬シ愛 2024-12-05 04:26:41

将其分成较小的批次。例如,假设您的 XML 文件被命名为 aaa.xml 到 zzz.xml 并且分布均匀,首先发送“java -jar a*.xml”,然后发送“java -jar b*.xml”等。

Break it into smaller batches. E.g. assuming your XML files are named aaa.xml to zzz.xml and fairly distributed, first send "java -jar a*.xml", then "java -jar b*.xml", etc.

最佳男配角 2024-12-05 04:26:41

开放图书馆项目不久前将大量书籍加载到 solr 中以用于搜索目的。 此处有一篇关于它的博客文章,可能对您有用。

The Open library project a while ago loaded a large number of books into solr for it's search purposes. There's a blog post about it here which might be useful to you.

若沐 2024-12-05 04:26:41

您尝试过加载 3000 个文档吗?你成功了吗?花了多长时间?你没有说文件有多大,所以不可能给出估计,但我见过数据库加载(不是 lucene,而是类似)以每小时 100,000 个文档的速度运行。

Have you tried loading 3000 documents? Were you successful, and how long did it take? You haven't said how big the files are, so it's impossible to give estimates, but I've seen database loading (not lucene, but similar) run at 100,000 documents per hour.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文