Solr CEL/Tika 输出的格式是什么?以及如何修复它?
我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已启用文本存储,并检查了它。以下是示例 DOC 文件的结果:
是一家移动用户界面 (UI) 软件开发公司,总部位于剑桥, 英国。整合公司后,高通重新命名了他们的界面 标记语言及其伴随的集成开发 环境(IDE)为HYPERLINK “http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1” *\o "UiOne(页面不存在)" uiOne** 。 2009 年 3 月,高通 通知了他们的剑桥工程人员,大部分来自该部门 致力于超链接“http://en.wikipedia.org
该文档包含来自 Wikipdia 的材料。我在 http://pastebin.com/8FL9eHJv
所以 Solr CEl/Tika 插入自己的格式,并且格式的结果显示在搜索中输出。如何解决这个问题,以便搜索结果(文本片段)不包含格式?
谷歌搜索告诉我 TIKA 有多种输出格式,那么这是方法吗?可以在渲染结果之前过滤文本吗?
相关详细信息:我的配置接近库存: 我的上传命令是一个Python变体
卷曲 “http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true” -F "[电子邮件受保护]"
我的 schema.xml http://pastebin.com/VLz2uuDQ
我的 SolrConfig.xml http://pastebin.xml com/X2J2jj64
I am using Solr to index DOC, DOCX and PDF files. I had enabled stored for the text and I checked it out. Here's the result from a sample DOC file:
, a mobile user interface (UI) software development company, based in Cambridge,
UK. After integrating the company, Qualcomm re-branded their interface
markup language and its accompanying integrated development
environment (IDE) as HYPERLINK
"http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1"
*\o "UiOne (page does not exist)" uiOne** . In March 2009, Qualcomm
informed their Cambridge engineering staff, mostly from the division
working on HYPERLINK "http://en.wikipedia.org
The Doc contains material from Wikipdia. I captured a full output on http://pastebin.com/8FL9eHJv
So Solr CEl/Tika inserts its own formatting, and the results of the formatting show up in the search output. How can I fix the problem so that the search results (text snippets) will not contain the formatting?
Googling around tells me that TIKA has several output formats, so is that the approach? Or is there a plugin that can filter the text before rendering the results?
Relevant details: My configuration is close to stock:
My upload command is a python variation of
curl
"http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true"
-F "[email protected]"
My schema.xml http://pastebin.com/VLz2uuDQ
My SolrConfig.xml http://pastebin.com/X2J2jj64
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您是否询问搜索结果中额外的超链接项。如果是,请尝试将 solrconfig.xml 中的提取请求句柄更新为
Are you asking about the extra hyperlink items in the search results. If yes, try updating the extract request handle in your solrconfig.xml to