当前位置：文江博客话题详情

PDF Lucene apache-tika

如何在网络应用程序中集成数据库搜索和 pdf 搜索？

发布于 2024-11-08 02:14:16 字数 449 浏览 9 评论 0原文

我有一个带有自定义搜索引擎的 jsp Web 应用程序。

搜索引擎基本上构建在 SQL Server 数据库的“文档”表之上。

举例来说，每个文档记录具有三个字段：

文档ID
“描述”（文本字段）
“附件”，文件系统中pdf文件的路径。

搜索引擎实际上在描述字段中搜索关键字，并在 HTML 页面中返回结果列表。现在我想在pdf文件内容中搜索关键字。

我正在研究 Lucene、Tika、Solr，但我不明白如何使用这些框架来实现我的目标。

一种可能的解决方案：使用 Tika 提取 pdf 内容并存储在新的文档表字段中，这样我就可以在该字段上编写 SQL 查询。

有更好的选择吗？我可以使用 Solr/Lucene 索引功能作为基于 SQL 的搜索引擎的集成而不是完全替代它吗？

谢谢

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

一笑百媚生 2024-11-15 02:14:16

我认为 Lucene 完全独立于 SQL 数据库，即您不会使用 SQL/jdbc/任何 DB 来查询 Lucene，而是使用它自己的 API 和数据存储。

您当然可以使用 Tika 提取 pdf 的全文，存储它，并使用 SQL DB 提供的任何内容。全文搜索能力。

如果您使用 Hibernate，Hibernate Search 是一款出色的产品，它集成了 SQL 存储和卢塞恩。但您必须采用 Hibernate/JPA 方式，这对于您的项目来说可能有点过分了。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

牛↙奶布丁

文章 0 评论 0

COSO

文章 0 评论 0

落叶

文章 0 评论 0

暗地喜欢

文章 0 评论 0

qq_i8qOEG

文章 0 评论 0

qq_Wl4Sbi

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文