Solr Tika,带有样式的文本
我看过这个链接: http://www.lucidimagination.com/Community /听取专家的意见/文章/内容提取-Tika 我得到的是纯文本,没有任何来自 Tika 的 Solr 样式可供搜索。 是否可以从 Solr 获取具有其样式的文本? 换句话说,我们需要将 solr 搜索到的文本以其原始样式显示出来。
I've seen this link:
http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika
What I got is pure text without any style from Tika for Solr to search in .
Is it possible to have the text with its style from Solr?
In other words, we need to show text with its original style after searched by solr .
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果你想一下,pdf 中的“原始风格”是什么?您想保留“风格”的哪些组成部分?
它不仅仅是字体和粗细,还有描边、填充、角度、路径、图形、跟踪、透明度、转换等等。如果您掌握了所有这些,您将如何在 UI/Web 中显示它?
除了显示原始 PDF 之外,您无法以任何方式真正复制原始样式。因此,如果人们想要原始格式,通常就会这样做。
否则,他们只使用纯文本。
If you think about it, what is "original style" in a pdf? What components of the "style" do you want to keep?
It's not just font and weight, it's stroke, fill, angle, path, graphics, tracking, transparency, transformations and more. IF you got all that, how would you display it in your UI/Web?
You can't really replicate the original style any way other than displaying the original PDF. So that's the way people usually do it if they want the original formatting.
Otherwise, they just use the pure text.