Solr CEL/Tika 输出的格式是什么？以及如何修复它？

发布于 2024-11-25 16:37:07 字数 1322 浏览 5 评论 0原文

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已启用文本存储，并检查了它。以下是示例 DOC 文件的结果：

是一家移动用户界面 (UI) 软件开发公司，总部位于剑桥，英国。整合公司后，高通重新命名了他们的界面标记语言及其伴随的集成开发环境（IDE）为HYPERLINK “http://en.wikipedia.org/w/index.php?title=UiOne&action=edit&redlink=1” *\o "UiOne（页面不存在）" uiOne** 。 2009 年 3 月，高通通知了他们的剑桥工程人员，大部分来自该部门致力于超链接“http://en.wikipedia.org

该文档包含来自 Wikipdia 的材料。我在 http://pastebin.com/8FL9eHJv

所以 Solr CEl/Tika 插入自己的格式，并且格式的结果显示在搜索中输出。如何解决这个问题，以便搜索结果（文本片段）不包含格式？

谷歌搜索告诉我 TIKA 有多种输出格式，那么这是方法吗？可以在渲染结果之前过滤文本吗？

相关详细信息：我的配置接近库存：我的上传命令是一个Python变体

卷曲 “http://localhost:8983/solr/update/extract?literal.id=doc-qualcomm&commit=true” -F "[电子邮件受保护]"

我的 schema.xml http://pastebin.com/VLz2uuDQ

我的 SolrConfig.xml http://pastebin.xml com/X2J2jj64

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蓝眼泪 2024-12-02 16:37:07

您是否询问搜索结果中额外的超链接项。如果是，请尝试将 solrconfig.xml 中的提取请求句柄更新为

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

Are you asking about the extra hyperlink items in the search results. If yes, try updating the extract request handle in your solrconfig.xml to

<str name="captureAttr">false</str><str name="fmap.a">ignored_</str>

回复收藏 0 原文

~没有更多了~

关于作者

前事休说

暂无简介

文章

26 人气

关注发私信

牛↙奶布丁

文章 0 评论 0

关注

COSO

文章 0 评论 0

关注

落叶

文章 0 评论 0

关注

暗地喜欢

文章 0 评论 0

关注

qq_i8qOEG

文章 0 评论 0

关注

qq_Wl4Sbi

文章 0 评论 0

友情链接

文江博客

Solr CEL/Tika 输出的格式是什么？以及如何修复它？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签