PDF 或 Word 文档中的 Sitecore 文本搜索

发布于 2024-11-18 13:38:26 字数 383 浏览 1 评论 0原文

我想知道是否可以配置 Sitecore 的 Lucene 搜索引擎来索引 PDF 或 Word 文档？我查看了 Sitecore 支持网站的本文档 (http: //sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf）但它提到创建一个文件爬虫类，这表明只有通过编写自定义代码才能实现此目的。如果我确实需要编写自定义代码来执行此操作，我是否还需要一些 API 才能从 PDF 文档中提取文本内容？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

扮仙女 2024-11-25 13:38:26

我最近不得不在我的一个项目中做类似的事情。
查看如何为 Word 建立索引使用 Lucene.NET 的 2003 年、2007 年和 2010 年文档。

我最终创建了一个处理 MS Office 文档（XP、2003、2007 和 2010 格式）和 PDF 文档的自定义索引器：

要索引 XP-2003 MS Office 文档，您可以使用操作系统内置的 IFilter （假设您使用的是 Windows Server 2003 或更高版本）
为了索引 2007-2010 MS Office 文档，您需要安装 Microsoft Office 2010 筛选器包
对于索引 PDF 文档，我强烈建议使用 < a href="http://www.foxitsoftware.com/pdf/ifilter/" rel="nofollow noreferrer">Foxit PDF IFilter。它不是免费的，但比 Adobe PDF IFilter 做得更好。

注意：不要在 Adobe PDF IFilter 上浪费时间：它无法读取有效的 PDF 文件，并且速度慢很多。 Foxit IFilter 旨在利用多核 CPU，在大型文档上表现更好。