PDF 或 Word 文档中的 Sitecore 文本搜索
我想知道是否可以配置 Sitecore 的 Lucene 搜索引擎来索引 PDF 或 Word 文档?我查看了 Sitecore 支持网站的本文档 (http: //sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)但它提到创建一个文件爬虫类,这表明只有通过编写自定义代码才能实现此目的。如果我确实需要编写自定义代码来执行此操作,我是否还需要一些 API 才能从 PDF 文档中提取文本内容?
I want to find out if it's possible to configure Sitecore's Lucene search engine to index PDF or Word documents? I've looked on the Sitecore support site at this document (http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf) but it mentions creating a file crawler class which suggests to me that it's only possible to achieve this by writing custom code. If I do need to write custom code to do this, would I also need to have some API in order to extract the text content from PDF documents?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我最近不得不在我的一个项目中做类似的事情。
查看如何为 Word 建立索引使用 Lucene.NET 的 2003 年、2007 年和 2010 年文档。
我最终创建了一个处理 MS Office 文档(XP、2003、2007 和 2010 格式)和 PDF 文档的自定义索引器:
IFilter
(假设您使用的是 Windows Server 2003 或更高版本)注意:不要在 Adobe PDF IFilter 上浪费时间:它无法读取有效的 PDF 文件,并且速度慢很多。 Foxit IFilter 旨在利用多核 CPU,在大型文档上表现更好。
I've recently had to do something similar on one of my projects.
Have a look at How to index Word 2003, 2007 and 2010 documents using Lucene.NET.
I ended up creating a custom indexer which handled MS Office documents (XP,2003,2007 and 2010 format) and PDF documents:
IFilter
s built into the OS (assuming you are using Windows Server 2003 or newer)Note: Don't waste your time with Adobe PDF IFilter: it fails to read valid PDF files and is a lot slower. Foxit IFilter is designed to take advantage of multi-core CPUs and performs much better on large documents.