PDF 或 Word 文档中的 Sitecore 文本搜索

发布于 2024-11-18 13:38:26 字数 383 浏览 1 评论 0原文

我想知道是否可以配置 Sitecore 的 Lucene 搜索引擎来索引 PDF 或 Word 文档?我查看了 Sitecore 支持网站的本文档 (http: //sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)但它提到创建一个文件爬虫类,这表明只有通过编写自定义代码才能实现此目的。如果我确实需要编写自定义代码来执行此操作,我是否还需要一些 API 才能从 PDF 文档中提取文本内容?

I want to find out if it's possible to configure Sitecore's Lucene search engine to index PDF or Word documents? I've looked on the Sitecore support site at this document (http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf) but it mentions creating a file crawler class which suggests to me that it's only possible to achieve this by writing custom code. If I do need to write custom code to do this, would I also need to have some API in order to extract the text content from PDF documents?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

扮仙女 2024-11-25 13:38:26

我最近不得不在我的一个项目中做类似的事情。
查看如何为 Word 建立索引使用 Lucene.NET 的 2003 年、2007 年和 2010 年文档

我最终创建了一个处理 MS Office 文档(XP、2003、2007 和 2010 格式)和 PDF 文档的自定义索引器:

  • 要索引 XP-2003 MS Office 文档,您可以使用操作系统内置的 IFilter (假设您使用的是 Windows Server 2003 或更高版本)
  • 为了索引 2007-2010 MS Office 文档,您需要安装 Microsoft Office 2010 筛选器包
  • 对于索引 PDF 文档,我强烈建议使用 < a href="http://www.foxitsoftware.com/pdf/ifilter/" rel="nofollow noreferrer">Foxit PDF IFilter。它不是免费的,但比 Adob​​e PDF IFilter 做得更好。

注意:不要在 Adob​​e PDF IFilter 上浪费时间:它无法读取有效的 PDF 文件,并且速度慢很多。 Foxit IFilter 旨在利用多核 CPU,在大型文档上表现更好。

I've recently had to do something similar on one of my projects.
Have a look at How to index Word 2003, 2007 and 2010 documents using Lucene.NET.

I ended up creating a custom indexer which handled MS Office documents (XP,2003,2007 and 2010 format) and PDF documents:

  • For indexing XP-2003 MS Office documents you can use IFilters built into the OS (assuming you are using Windows Server 2003 or newer)
  • For indexing 2007-2010 MS Office documents you will need to install Microsoft Office 2010 Filter Packs
  • For indexing PDF documents I strongly recommend using Foxit PDF IFilter. It is not free, but does a much better job than the Adobe PDF IFilter.

Note: Don't waste your time with Adobe PDF IFilter: it fails to read valid PDF files and is a lot slower. Foxit IFilter is designed to take advantage of multi-core CPUs and performs much better on large documents.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文