文本索引器（适用于 Python），内置对 doc、docx 和 pdf 文件的支持

发布于 2024-11-24 02:31:37 字数 248 浏览 6 评论 0原文

我目前正在为我的 python 程序寻找文本索引器。我将 Solr（一个 Lucene 项目）和 Whoosh（Python 原生项目）列入了候选名单。我搜索了很多关于 doc、docx 和 pdf 文件支持的文档，Solr 不断向我指出 Tika 包，它的一个版本与 Solr 集成。

结果没有在某些方面提及是否有任何软件包内置支持这三种格式。 Whoosh 和 Solr 支持他们吗？还有哪些其他开源索引器可以本机读取这些格式？

需要登录才能够评论，你可以免费注册一个本站的账号。

人事已非 2024-12-01 02:31:41

使用 Solr 1.4 或更高版本，您可以动态上传 Word 和 PDF 文件并为其建立索引；请参阅：http://wiki.apache.org/solr/ExtractingRequestHandler

Solr 的 ExtractingRequestHandler 使用 Tika 允许用户将二进制文件上传到 Solr，并让 Solr 从中提取文本，然后对其进行索引。

~没有更多了~

暂无简介

文章

25 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0