Solr Tika,带有样式的文本

发布于 2024-10-07 10:54:10 字数 298 浏览 8 评论 0原文

我看过这个链接: http://www.lucidimagination.com/Community /听取专家的意见/文章/内容提取-Tika 我得到的是纯文本,没有任何来自 Tika 的 Solr 样式可供搜索。 是否可以从 Solr 获取具有其样式的文本? 换句话说,我们需要将 solr 搜索到的文本以其原始样式显示出来。

I've seen this link:
http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika
What I got is pure text without any style from Tika for Solr to search in .
Is it possible to have the text with its style from Solr?
In other words, we need to show text with its original style after searched by solr .

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

对风讲故事 2024-10-14 10:54:10

如果你想一下,pdf 中的“原始风格”是什么?您想保留“风格”的哪些组成部分?

它不仅仅是字体和粗细,还有描边、填充、角度、路径、图形、跟踪、透明度、转换等等。如果您掌握了所有这些,您将如何在 UI/Web 中显示它?

除了显示原始 PDF 之外,您无法以任何方式真正复制原始样式。因此,如果人们想要原始格式,通常就会这样做。

否则,他们只使用纯文本。

If you think about it, what is "original style" in a pdf? What components of the "style" do you want to keep?

It's not just font and weight, it's stroke, fill, angle, path, graphics, tracking, transparency, transformations and more. IF you got all that, how would you display it in your UI/Web?

You can't really replicate the original style any way other than displaying the original PDF. So that's the way people usually do it if they want the original formatting.

Otherwise, they just use the pure text.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文