当前位置：文江博客话题详情

对源数据来自多个源的 Solr 记录建立索引的好方法是什么？

发布于 2024-12-01 17:57:50 字数 951 浏览 0 评论 0原文

我有多个数据源，我想从中生成 Solr 文档。一个来源是文件系统，因此我计划迭代一组（可能很多）文件来收集每个生成的 Solr 文档中的一部分数据。第二个来源是另一个 Solr 索引，我想从中提取几个字段。第二个来源也可能有许多（约数百万）条记录。如果重要的话，源 1 提供大部分内容（每个记录的大小比源 2 大几个数量级）。

来源 1：

/file/band1 -> id="xyz1" name="beatles"era="60s"
/file/band2 -> id =“xyz2”名称=“u2”时代=“80s”
...
/file/band4000 - > id="xyz4000" name="clash"era="70s"

来源 2：

solr 记录 1 -> id =“xyz2”吉他=“edge”
solr记录2 - > id =“xyz4000”吉他=“琼斯”
solr记录3 - > id =“xyz1”吉他=“george”

我的问题是如何最好地设计这个工作流程。一些高级选择包括：

对源 1（文件系统）中的数据进行完全索引。接下来，对源 2 中的数据建立索引并更新已索引的记录。使用 Solr，我相信您仍然不能只向记录添加单个字段，而是用新记录替换整个旧记录。
执行与 (1) 相反的操作，首先索引来自 Solr 源的数据，然后索引来自文件系统的数据。
在索引到 Solr 之前以某种方式集成数据。一般来说，我们对每个源的遍历顺序不太了解——也就是说，我没有看到一种简单的方法来迭代两个源，其中 xyz1 从两个源处理，然后 xyz2所以

影响决策的一些因素包括数据的大小（在计算时间或内存方面不能太低效）以及Solr在替换记录时的性能（原始大小重要吗？）。

任何想法将不胜感激。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

以歌曲疗慰 2024-12-08 17:57:50

我想说，如果您不关心存储在两个源中的数据首先被合并，那么选项 1 或 2 就可以正常工作。我可能会首先索引较大的源，然后使用第二个源“更新”。

回复收藏 0 原文

栀梦 2024-12-08 17:57:50

选择选项 3 — 在更新之前合并记录。

大概您会使用脚本来迭代文件并处理它们，然后再将它们发送到最终的 Solr 索引。在该脚本中，使用您的共享标识符查询备用 Solr 索引以获取它可能具有的任何补充字段信息。根据需要将其与文件内容相结合，然后将生成的记录发送到 Solr 进行索引。

通过在更新之前合并，您不必担心记录会相互覆盖。您还可以更好地控制哪个源具有优先权。此外，只要您不查询该国另一端的服务器，我就会假设对备用 Solr 索引的请求时间可以忽略不计。

回复收藏 0 原文

~没有更多了~

关于作者

怪我太投入

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

浪漫人生路

文章 0 评论 0

620vip

文章 0 评论 0

羞稚

文章 0 评论 0

走过海棠暮

文章 0 评论 0

你好刘可爱

文章 0 评论 0

陌若浮生

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文