将多个可搜索文件添加到一个 Solr-index-document

发布于 2024-12-11 17:25:32 字数 837 浏览 0 评论 0原文

有没有一种方法或最佳实践可以使用提取处理程序将多个文件(例如 2 个 pdf 和 1 个 doc)添加到一个 solr-index-doc 中?查询时的结果应该看起来像这样:

<result name="response">
 <str name="id">123</str>

  <doc>
   <arr name="attr_content">
    content of pdf-1
   </arr>
  </doc>

  <doc>
   <arr name="attr_content">
    content of pdf-2
   </arr>
  </doc>

  <doc>
   <arr name="attr_content">
    content of doc-1
   </arr>
  </doc>

</result>

在我的 java 应用程序中,我将文件添加到 Solr-Index 中,就像只添加一个文件一样:

ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File("c:\\document1.pdf"));
up.setParam("literal.id", solrId);
up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
solr.request(up);

Is there a way or best practice to add more than one file (e.g. 2 pdfs and 1 doc) into one solr-index-doc using the extract handler? The result when querying should look somehow like this:

<result name="response">
 <str name="id">123</str>

  <doc>
   <arr name="attr_content">
    content of pdf-1
   </arr>
  </doc>

  <doc>
   <arr name="attr_content">
    content of pdf-2
   </arr>
  </doc>

  <doc>
   <arr name="attr_content">
    content of doc-1
   </arr>
  </doc>

</result>

In my java application I am adding files to the Solr-Index like that which adds only one file:

ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File("c:\\document1.pdf"));
up.setParam("literal.id", solrId);
up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
solr.request(up);

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

农村范ル 2024-12-18 17:25:32

它只允许将一个文件作为附件附加。
Solr 确实允许对 zip 文件建立索引(patch),这会索引内容用于文件。
因此,您可以将文件打包成 zip 并将其提供给 Solr,该文件将作为单个文档进行索引。

It just allows one file to be attached as an attachment.
Solr does allow zip files to be indexed (patch), which would index the contents for the files.
So you can package the files into a zip and feed it Solr, which would be indexed as a Single document.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文