Solr DataImportHandler 增量导入

发布于 2024-10-10 14:18:06 字数 189 浏览 7 评论 0原文

我正在使用 DataImportHandler 在 SOLR 中索引数据。我使用完全导入来索引数据库中的所有数据，大约有 10000 个产品。现在我对增量导入的用法感到困惑？它是否会定期对添加到数据库中的新数据建立索引？我的意思是，它将对添加到表中大约 10 行的新数据建立索引，或者只是更新已索引数据中的更改。

谁能尽快用简单的例子向我解释一下。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

真心难拥有 2024-10-17 14:18:06

DataImportHandler 可能有点令人畏惧。您的初始查询已加载 10.000 个独特的产品。如果您指定 /dataimport?command=full-import，则会加载此文件。
完成此导入后，DIH 会存储一个变量 ({dataimporter.last_index_time})，它是您执行此导入的最后日期/时间。

为了进行更新，您需要指定一个 deltaQuery。 deltaQuery 旨在识别自上次更新以来数据库中已更改的记录。因此，您指定这样的查询： SELECT Product_id
来自某个表
WHERE [date_update] >= '${dataimporter.last_index_time}'
这将从您的数据库中检索自上次完整更新以来更新的所有product_ids。您需要指定的下一个查询 (deltaImportQuery) 是检索上一步中每个 Product_id 的完整记录的查询。

假设product_id是你的唯一键，solr会发现它需要更新现有记录，或者如果product_id不起作用则添加一个记录。

为了执行 deltaQuery 和 deltaImportQuery，您可以使用 /dataimport?command=delta-import

这是所有可能性的极大简化，请查看 Solr wiki 上的 DataImportHandler，它是一个非常强大的工具！

回复收藏 0 原文

醉态萌生 2024-10-17 14:18:06

另请注意：

当您在较小的时间窗口内使用增量导入（例如几秒钟内几次）并且数据库服务器位于 solr 索引服务之外的其他计算机上时，请确保 systemtime<两台机器的 /code> 匹配，因为 [date_update] 的时间戳是在数据库服务器上生成的，而 dataimporter.last_index_time 在另一台机器上生成的。

否则，您将不会根据时间差异更新索引（或太多）。

回复收藏 0 原文