如何使用 Lucene Solr 索引近 300 万个 xml 文件
我正在尝试使用 lucene solr 索引近 300 万个 xml 文件。当我尝试使用命令行“java -jar post.jar *.xml”时。机器没有任何反应。我怎样才能进行索引?非常感谢。
I am trying to index almost 3 million xml files with lucene solr. When I try to use command line "java -jar post.jar *.xml". There is no response from the machine. How can I do the indexing? Big thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
将其分成较小的批次。例如,假设您的 XML 文件被命名为 aaa.xml 到 zzz.xml 并且分布均匀,首先发送“java -jar a*.xml”,然后发送“java -jar b*.xml”等。
Break it into smaller batches. E.g. assuming your XML files are named aaa.xml to zzz.xml and fairly distributed, first send "java -jar a*.xml", then "java -jar b*.xml", etc.
开放图书馆项目不久前将大量书籍加载到 solr 中以用于搜索目的。 此处有一篇关于它的博客文章,可能对您有用。
The Open library project a while ago loaded a large number of books into solr for it's search purposes. There's a blog post about it here which might be useful to you.
您尝试过加载 3000 个文档吗?你成功了吗?花了多长时间?你没有说文件有多大,所以不可能给出估计,但我见过数据库加载(不是 lucene,而是类似)以每小时 100,000 个文档的速度运行。
Have you tried loading 3000 documents? Were you successful, and how long did it take? You haven't said how big the files are, so it's impossible to give estimates, but I've seen database loading (not lucene, but similar) run at 100,000 documents per hour.