当前位置：文江博客话题详情

Solr 实时系统上大索引增量备份

发布于 2024-09-06 13:53:20 字数 481 浏览 4 评论 0原文

我使用 solr 实现搜索引擎，每天至少导入 200 万个文档。用户必须能够尽快（近乎实时）搜索导入的文档。

我使用 2 个专用 Windows x64 和 tomcat 6（Solr 分片模式）。每台服务器，索引约1.2亿个文档，约220GB（总计500GB）。

我想在更新或搜索期间从 solr 索引文件获取备份增量。
搜索后，找到适用于UNIX的rsync工具和适用于Windows的DeltaCopy（GUI rsync 适用于 Windows）。但在更新过程中出现错误（消失）。

如何解决这个问题。

注意1：当文件大小非常大时，文件复制非常慢。因此我不能使用这种方式。

注2：如果 Windows 崩溃或硬件重置或任何其他问题，我可以防止更新期间索引文件损坏吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

掩饰不了的爱 2024-09-13 13:53:20

您可以使用 ReplicationHandler 进行热备份（即写入索引时），将 Solr 的数据目录复制到本地系统上的其他位置。然后对该目录执行任何您喜欢的操作。您可以随时通过访问如下 URL 来启动备份：

http://host:8080/solr/replication?command=backup&location=/home/jboss/backup

显然您可以使用 wget+cron 编写脚本。

《Lucene in Action》书中有一节介绍了 Lucene 的热备份，在我看来，Solr 的 ReplicationHandler 中的代码使用了与那里概述的相同的策略。该书的一位作者甚至在另一个 StackOverflow 答案中详细阐述了它的工作原理。

You can take a hot backup (i.e. while writing to the index) using the ReplicationHandler to copy Solr's data directory elsewhere on the local system. Then do whatever you like with that directory. You can launch the backup whenever you want by going to a URL like this:

http://host:8080/solr/replication?command=backup&location=/home/jboss/backup

Obviously you could script that with wget+cron.

More details can be found here:

http://wiki.apache.org/solr/SolrReplication

The Lucene in Action book has a section on hot backups with Lucene, and it appears to me that the code in Solr's ReplicationHandler uses the same strategy as outlined there. One of that book's authors even elaborated on how it works in another StackOverflow answer.

回复收藏 0 原文

羞稚 2024-09-13 13:53:20

更新索引时不要运行备份。您可能会得到一个损坏的（因此无用的）备份。

解决这个问题的一些想法：

批量更新，即不是一直添加/更新文档，而是每 n 分钟添加/更新。这将让您在 n 分钟之间运行备份。缺点：文档新鲜度受到影响。
使用第二个被动 Solr 核心：为每个分片设置两个核心，一个主动，一个被动。所有查询都是针对活动核心发出的。使用复制使被动核心保持最新。针对被动核心运行备份。运行备份时，您必须禁用复制。缺点：复杂，移动部件较多，需要双倍的磁盘空间来维护被动核心。