Solr CEL/Tika 输出的格式是什么?以及如何修复它?

发布于 2024-11-25 16:37:07 字数 1322 浏览 2 评论 0原文

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已启用文本存储,并检查了它。以下是示例 DOC 文件的结果:

是一家移动用户界面 (UI) 软件开发公司,总部位于剑桥, 英国。整合公司后,高通重新命名了他们的界面 标记语言及其伴随的集成开发 环境(IDE)为HYPERLINK “http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1” *\o "UiOne(页面不存在)" uiOne** 。 2009 年 3 月,高通 通知了他们的剑桥工程人员,大部分来自该部门 致力于超链接“http://en.wikipedia.org

该文档包含来自 Wikipdia 的材料。我在 http://pastebin.com/8FL9eHJv

所以 Solr CEl/Tika 插入自己的格式,并且格式的结果显示在搜索中输出。如何解决这个问题,以便搜索结果(文本片段)不包含格式?

谷歌搜索告诉我 TIKA 有多种输出格式,那么这是方法吗?可以在渲染结果之前过滤文本吗?

相关详细信息:我的配置接近库存: 我的上传命令是一个Python变体

卷曲 “http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true” -F "[电子邮件受保护]"

我的 schema.xml http://pastebin.com/VLz2uuDQ

我的 SolrConfig.xml http://pastebin.xml com/X2J2jj64

I am using Solr to index DOC, DOCX and PDF files. I had enabled stored for the text and I checked it out. Here's the result from a sample DOC file:

, a mobile user interface (UI) software development company, based in Cambridge,
UK. After integrating the company, Qualcomm re-branded their interface
markup language and its accompanying integrated development
environment (IDE) as HYPERLINK
"http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1"
*
\o "UiOne (page does not exist)" uiOne** . In March 2009, Qualcomm
informed their Cambridge engineering staff, mostly from the division
working on HYPERLINK "http://en.wikipedia.org

The Doc contains material from Wikipdia. I captured a full output on http://pastebin.com/8FL9eHJv

So Solr CEl/Tika inserts its own formatting, and the results of the formatting show up in the search output. How can I fix the problem so that the search results (text snippets) will not contain the formatting?

Googling around tells me that TIKA has several output formats, so is that the approach? Or is there a plugin that can filter the text before rendering the results?

Relevant details: My configuration is close to stock:
My upload command is a python variation of

curl
"http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true"
-F "[email protected]"

My schema.xml http://pastebin.com/VLz2uuDQ

My SolrConfig.xml http://pastebin.com/X2J2jj64

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

蓝眼泪 2024-12-02 16:37:07

您是否询问搜索结果中额外的超链接项。如果是,请尝试将 solrconfig.xml 中的提取请求句柄更新为

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

Are you asking about the extra hyperlink items in the search results. If yes, try updating the extract request handle in your solrconfig.xml to

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文